- 手机:19567690524
- 电话:024-696380656
- Q Q:773546079
- 邮箱:admin@cnsecuritydoor.com
- 地址:西藏自治区拉萨市南明区平预大楼276号
字节跳动下的头条系技术架构剖析
来源:威澳门尼斯人手机版下载安装 发布时间:2022-04-13 13:06nbsp; 点击量:
一、产物配景1、文章抓取与分析2、用户建模3、新用户的“冷启动”4、推荐系统5、数据存储6、消息推送二、头条系统架构三、头条微服务架构四、头条的虚拟化PaaS平台计划 字节跳动的今日头条APP建立于2012年3月,到现在仅7年时间。从十几个工程师开始研发,到上百人,再到200余人。产物线由内在段子,到今日头条,今日特卖,今日影戏等产物线。一、产物配景 今日头条是为用户提供个性化资讯客户端。
下面就和大家分享一下当前今日头条的数据(据内部与公然数据综合):5亿注册用户2014年5月1.5亿,2015年5月3亿,2016年5月份为5亿。险些为成倍增长。日活4800万用户2014年为1000万日活,2015年为3000万日活。
日均5亿PV5亿文章浏览,视频为1亿。页面请求量凌驾30亿次。
用户停留时长凌驾65分钟以上1、文章抓取与分析 我们日常发生原创新闻在1万篇左右,包罗各大新闻网站和地方站,另外另有一些小说,博客等文章。这些对于工程师来讲,写个Crawler并非难题的事。 接下来,今日头条会用人工方式对敏感文章举行审核过滤。
此外,今日头条头条号现在也有为数不少的原创文章加入到了内容遴选行列中。 接下来我们会对文章举行文天职析,好比分类,标签、主题抽取,按文章或新闻所在地域,热度,权重等盘算。2、用户建模 当用户开始使用今日头条后,对用户行动的日志举行实时分析。
使用的工具如下:ScribeFlumeKafka 我们对用户的兴趣举行挖掘,会对用户的每个行动举行学习。主要使用:HadoopStorm 发生的用户模型数据和大部门架构一样,生存在MySQL/MongoDB(读写分散)以及Memcache/Redis中。 随着用户量的不停扩展大,用户模型处置惩罚的机械集群数量较大。
2015年前为7000台左右。其中,用户推荐模型包罗以下维度:1 用户订阅2 标签3 部门文章打散推送此时,需要时时刻刻做推荐。3、新用户的“冷启动” 今日头条会通过用户使用的手机,操作系统,版本等“识别”。另外,好比用户通过社交帐号登录,如新浪微博,头条会对其挚友,粉丝,微博内容及转发、评论等维度举行对用户做开端“画像”。
分析用户的主要参数如下:关注、粉丝关系关系用户标签 除了手机硬件,今日头条还会对用户安装的APP举行分析。例如机型和APP联合分析,用小米,用三星的和用苹果的差别,另外另有用户浏览器的书签。头条会实时捕捉用户对APP频道的行动。另外还包罗用户订阅的频道,好比影戏,段子,商品等。
4、推荐系统 推荐系统,也称推荐引擎。它是今日头条技术架构的焦点部门。包罗自动推荐与半自动推荐系统两种类型:1) 自动推荐系统自动候选自动匹配用户,如用户地址定位,抽取用户信息自动生成推送任务这时需要高效率,大并发的推送系统,上亿的用户都要收到。
2)半自动推荐系统自动选择候选文章凭据用户站内外行动 头条的频道,在技术侧划分的包罗分类频道、兴趣标签频道、关键词频道、文天职析等,这些都分成相对独立的开发团队。现在已经有300+个分类器,仍在不停增加新的用户模型,原来的用户模型不用撤消,仍然发挥作用。 在还没有推出头条号时,内容主要是抓取其它平台的文章,然后去重,一年几百万级,并不太大。
主要是用户行动日志收集,兴趣收集,用户模型收集。 资讯App的技术指标,好比屏幕滑动,用户是不是对一篇都看完,停留时间等都需要我们特别关注5、数据存储 今日头条使用MySQL或Mongo持久化存储+Memched(Redis),分了许多库(一个大内存库),亦实验使用了SSD的产物。 今日头条的图片存储,直接放在数据库中,漫衍式生存文件,读取的时候接纳CDN。
6、消息推送 消息推送,对于用户: 实时获取信息。对运营来讲,能够 提⾼⽤用户活跃度。好比在今日头条推送后能够提升20%左右的DAU,如果没有推送,会影响10%左右 DAU(2015年数据)。
推送后要关注的ROI:点击率,点击量。能够监测到App卸载和推送禁用数量。 今日头条推送的主要内容包罗突发与热点咨讯,有人评论回复,站外挚友注册加入。
在头条,推送也是个性化:频率个性化内容个性化地域兴趣好比: 根据都会:辽宁向阳发生的某个新闻事件,发给向阳当地的用户。 根据兴趣:好比京东收购一号店,发给互联网兴趣的用户。 推送平台的工具和选择,需要具备如下的尺度:通道,首先速度要快,可是要可控,可靠,而且节约资源推送的速度要快,有差别维度的计谋支持,可跟踪,开发接口要友好推送运营的后台,反馈也要快,包罗时效性,热度,工具操作利便对于运营侧,清晰是否确定推荐,包罗推送的文案处置惩罚 因此,推送后台应该提供日报,完整的数据后台,提供A/B Test方案支持。
推送系统一部门使用自有IDC,在发送量特别大,消耗带宽较严重。可以使用类似阿里云的服务,可有效节约成本。二、今日头条系统架构三、头条微服务架构 今日头条通过拆分子系统,大的应用拆成小应用,抽象通用层做代码复用。系统的分层比力典型。
重点在基础设施,希望通过基础设施提高快速迭代、容灾和一系列的事情,希望各个业务团队能更快做业务上的迭代以及架构上的调整。四、今日头条的虚拟化PaaS平台计划通过三层实现,通过 PaaS 平台统一治理。提供通用 SaaS 服务,同时提供通用的 App 执行引擎。
最底层是 IaaS 层。 IaaS 治理所有的机械,把公有云整合起来,头条有一些热点事件会全国推广推送,对网络带宽比力高,我们借助公有云,需要哪一种类型盘算资源,统一抽象起来。
基础设施联合服务化的思路,好比日志,监控等等功效,业务不需要关注细节就可以享受到基础设施提供的能力。五、总结今日头条重要的部门在于:数据生成与收罗数据传输。Kafka做消息总线毗连在线和离线系统。
数据入库。数据堆栈、ETL(抽取转换加载)数据盘算。数据堆栈中的数据表如何能被高效的查询很关键,因为这会直接关系到数据分析的效率。
常见的查询引擎可以归到三个模式中,Batch 类、MPP 类、Cube 类,头条在 3 种模式上都有所应用。
本文关键词:威澳门尼斯人手机版下载安装,字节,跳动,下,的,头条,系,技术,架构,剖析,一
本文来源:威澳门尼斯人手机版下载安装-www.cnsecuritydoor.com
推荐新闻 MORE+
- 字节跳动下的头条系技术架构剖析 2022-04-13
- 汪海林又来攻击肖战,是在泄私愤,还是 2022-04-13
- 头条关注去那里了? 2022-04-13
- 「思明头条」打造“近邻”模式,擦亮平 2022-04-13
- 海南6月离岛免税品零售额同比飙升235% 自 2022-04-13
- 土地信托模式的国际借鉴与思考 2022-04-12
- 节能降耗增收节支是推进水务行业经济转 2022-04-12
- 股海导航 7月30日沪深股市公告提示 2022-04-12
- 阿根廷:资本管制催生负收益率美元债需 2022-04-12
- 全球芯片业现变局:台积电暴涨5000亿 将为 2022-04-12