*今条头日**的算法比你更了解你

  • 头条推荐机制就是一种人工智能的算法。它通过机器识别用户和内容,对其进行特征刻画,并将二者进行匹配推荐,本文旨在揭秘这个推荐机制的逻辑。看完本文你会发现,它的算法比你自己更了解你自己。

一、 头条推荐机制

众所周知*今条头日**是以算法驱动进行内容推荐的平台,这和传统新闻播发平台不同,内容所获得的流量根据系统的推荐机制对阅读者进行分发,因此下面我们对*今条头日**的推荐机制进行一定了解。

1、基本机制

*今条头日**的推荐系统,解决的是用户、环境和内容的匹配,匹配的结果在APP里呈现给用户。推荐系统涉及到三个要素:用户,环境和内容。

用户,即*今条头日**的使用者,用户特征包括用户的年龄、性别、职业和兴趣等。用户使用过程中系统会根据用户使用情况刻画出的用户兴趣特征,如用户订阅帐号、历史浏览文章、喜欢的内容、关注的话题,以及使用过程中的评论、点赞、内容停留时间等,根据用户的使用行为,系统会对用户特征标签进行建模。

内容,即*今条头日**各平台内容,包括图文、视频、小视频、问答、微头条、搜索。系统会对内容捕捉特征标签,然后根据这些标签与用户特征进行匹配推荐。内容标签的产生包含人为预设的语义标签,也包含系统通过内容分析得出的标签。内容标签,在用户浏览内容时,根据用户的浏览行为也会成为用户的兴趣标签。

环境,即用户所处的外部场景,头条app多在移动互联网手机上使用,用户在移动,工作场合、通勤、旅游等不同的场景,会产生不同的信息需求。环境特征实际上也可以涵盖在用户特征里。

*今条头日**推荐的基本机制,就是对这三方面要素进行匹配,从而推测出一条推荐内容在环境场景下对用户是否合适。

*今条头日**的算法比你更了解你

图片来源:《*今条头日**算法原理》

2、标签识别

推荐系统的匹配,首先需要对内容和用户所包含的信息进行标签识别,以获得有效的特征,这样才能进行优质的匹配推荐。

1)内容标签

简单来说,内容标签就是系统对内容进行关键词识别来对内容特征进行刻画。内容标签包括人为预定义的语义标签,以及系统进行内容分析后获取的内容特征标签。

内容标签的获取一方面可以对用户兴趣进行建模,比如一篇文章的内容标签含有“篮球”,某个用户浏览“篮球”标签的文章,系统就能判断该用户对“篮球”感兴趣,用户也会被系统贴上“篮球”的特征标签;另一方面,有了内容标签又可以将内容匹配给有相关特征的用户。

内容标签抓取后,内容会被分类到相关的子频道。比如,带有“篮球”标签会被分类到体育频道,可以更细化为篮球,再细化为国际篮球、国内篮球等。头条系统通过这种内容分层,相关的内容会汇聚到同一子频道,这种分类可以让系统更容易将用户需要的内容进行匹配推荐。

比如,如果用户某段时间在推荐主频道获得的内容出现推荐窄化,用户会发现到具体的频道(如科技、体育、娱乐、军事等)中阅读后,再回推荐主频道,推荐效果会更好。因为子频道探索空间更聚焦,系统会更容易地了解用户需求。

内容特征还有一个很重要的特征,就是相似度特征。相似度特征判断不同文章之间的相似程度。头条会根据内容的主题、行文、主体等内容进行相似性评价,相似度高的内容,头条会进行排序,排序优先的会被推荐。

内容特征还包括时空特征,分析内容的发生地点以及时效性。比如重庆限行的事情推给北京用户可能就没有意义。

2)用户标签

用户标签就是系统对用户特征的刻画。

  • 常用的用户标签

*今条头日**常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(业余爱好,娱乐,运动等),以及性别、年龄、地点等信息。用户兴趣信息可以通过用户访问的内容所带有的内容标签来获取。性别信息通过用户登录的第三方社交账号得到。年龄信息通常由模型预测,通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息,在位置信息的基础上通过传统聚类的方法获取常驻点。常驻点结合其他信息,可以推测用户的工作地点、出差地点、旅游地点。系统根据用户各方面的信息刻画出用户标签非常有助于推荐。

  • 用户标签处理策略

用户浏览过内容标签时,会被系统认定为用户特征,系统在进行认定时有一些处理策略。

主要包括:

i. 过滤噪声:通过停留时间短的点击,过滤标题*党**。

ii. 热点惩罚:对用户在一些热门文章上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降。比如一些用户被推荐传播很广的热点,并不代表用户对这个热点真的感兴趣。因此,这一热点内容的标签作为用户特征的可信度系统会调低。

iii. 时间衰减:用户兴趣会发生偏移,因此策略更偏向新的用户行为。因此,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。

iv. 惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。

3、推荐干预

系统刻画出了内容和用户的特征标签,基于这些标签,系统就可以进行精准匹配推荐。在推荐环节中,系统还设置了推荐干预策略,这些干预策略对内容推荐会产生直接影响。

1)内容审核

头条对内容会根据法律法规等各方面需要进行内容审核,审核不通过内容无法发布。*今条头日**的内容主要来源于两部分,一是具有成熟内容生产能力的PGC(专业内容生产者)内容;一是UGC(用户内容生产者)内容,如问答、用户评论、微头条。这两部分内容都需要通过统一的审核机制。

如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被系统对用户推荐。

2)推荐权重设置

平台出于内容生态和社会责任的考量,会对重要新闻的置顶、加权、强插,对低俗内容、标题*党**、低质内容进行*压打**及低级别账号内容降权。

3)冷启动和复审核机制

内容通过审核后,就会进入冷启动阶段,系统会将内容进行匹配对外真正推荐。冷启动阶段,内容会形成数千的展现,这时系统会对展现结果的反馈信息进行复审核。如果收到了一定数量的负向评论或者举报的反馈,有问题的内容,像假新闻、黑稿、题文不符、标题*党**、内容质量低等,系统的低质模型会进行评估,认定后,内容会被下架停止推荐。没有被下架的内容,后续阶段的推荐就要看内容自身的实力,好的内容在被大量转发、评论等用户互动后,会触发系统进行更大范围的匹配推荐。

4、推荐特征

推荐特征,指的是能够触发内容推荐具有哪些特点。典型的推荐特征主要有四类,这四类特征会对推荐起到比较重要的作用。

第一类是匹配性,就是系统评估内容标签和与用户需求是否匹配。显性的匹配包括关键词匹配、分类匹配、来源匹配、主题匹配等。像FM模型中也有一些隐性匹配,从用户向量与内容向量的距离可以得出。具有匹配相关性的内容会被推荐。

第二类是环境特征,包括地理位置、时间。

第三类是热度特征,包括全局热度、分类热度,主题热度,以及关键词热度等。内容热度信息在大的推荐系统特别在用户冷启动的时候非常有效。

第四类是协同特征,它可以在部分程度上帮助解决所谓算法越推越窄的问题。协同特征并非考虑用户已有历史,而是通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力。

二、 推荐流程

以上对头条的推荐机制进行了梳理,下面分析内容在头条被推荐的流程。内容在头条被推荐的流程包括:初审、冷启动、正常推荐和复审。

*今条头日**的算法比你更了解你

图片来源:*今条头日**公开课

1、初审

内容的初审判断文章是否违反法律法规相关规定,初审采用机器和人工双重审核,根据不同的优先级,内容分配给不同的审核员审核。通过初审后,内容正式上线发布。

2、冷启动

初审通过后,内容开始在线上根据内容特征标签进行匹配推荐。由于新发布文章相对于已发布的文章存在劣势,头条的系统对新上线的文章设置一个推荐加权,使得新发布文章获得一定的展现,以观察新发布内容产生的用户点击、评论、转发等反馈情况。这个过程在头条的术语里,叫做冷启动。在冷启动过程中,系统就可以观察到对内容感兴趣的人群、用户对内容的兴趣程度。冷启动的加权不会一直持续,在系统认为内容获得足够的冷启动机会后,加权会被取消。内容在冷启动过程中的表现会影响加权取消后的进一步推荐效果,冷启动过程中推荐效果好的内容会被系统进一步扩大推荐给更多的人群。

3、正常推荐

冷启动后,内容进入正常推荐阶段,推荐效果好的内容,系统视为具有更大潜力,会进一步被系统推荐。根据用户对内容的行为,系统判定内容的推荐潜力,当用户对内容兴趣下降,系统就会缩紧后续推荐。比如,冷启动阶段千级用户推荐情况下,内容表现良好,系统会向一万两万级的用户量推荐;更进一步向数万十万级用户量推荐,当用户浏览兴趣下降,系统推荐也会随之收紧。

在决定是否要扩大推荐范围的过程中,最重要的影响因素是:点击率。这个点击率指有效点击率,是读者深度阅读的点击率。如果只是点击进去没有看文章就退出来了,就不是有效的,反而会有负面影响。

4、复审

在正常推荐过程中,系统会收到用户对内容的反馈,比如举报、用户负面评论特别多的情况,系统就会对内容再次开启审核流程,如果审核发现存在标题*党**、封面*党**、低俗、低质等问题,系统就会对内容停止推荐。

三、 推荐不佳可能的原因

前面对头条系统的推荐机制、标签识别、推荐干预以及推荐流程进行了介绍。简要来讲,就是机器如何识别内容,如何推荐给用户的一套机制,内容在这样一套机制下分发运作。在这套系统下,不同内容获得的推荐存在很大差异,有的内容获得推荐量很高,而有些文章可能推荐到一定量就不再有访问量,导致的原因可能在以下几个方面。

1、 消重

头条针对众多同类的内容有消重策略,消重就是消除重复,对于同一个话题里相同题材、风格的内容,系统会优先推荐原创,以保护原创。同时,系统不希望用户被推送到两篇基本相同的内容,这是系统资源的浪费。因此,对于创作者来说一定要坚持原创。追逐同一个热点话题,也要有自己独到的风格。模仿追随别人的文案风格会收到消重策略的*压打**。在原创识别上系统会利用发布时间、来源的权威性,以及来源被引用的次数等几个特征作为判断因素,来确定是否是原创。

2、 冷启动效果差

文章发布后首轮推荐的效果不佳,系统对相关数据评估后认为不具备进一步推荐的潜力,后续的推荐就会下降。

3、 同类文章挤压

系统推荐内容会对同类内容池内的内容进行排序,表现更好的文章会被优先推送。如果创作者的文章不如其他同类文章更热点,推荐就会被挤压。因此同类其他内容的表现会对创作者内容推荐量造成影响。

4、 内容自身原因

内容本身如果比较小众,所匹配的用户就会比较有限,系统把目标人群推荐完了,就不会继续推荐。有些内容本身具有很强的时效性,过了热点时效,系统也不会再推荐。

创作者的内容不够垂直也会影响到内容推送,系统会优先推荐内容更加专业的优质文章,如果创作者内容质量不够稳定,或者不够垂直聚焦,系统无法评估判断创作者能力和专业度,这些因素会影响机器对创作者的识别。

5、 复审拦截

内容获得大量点击但收到大量负面评论或者举报,系统就会对内容重新进行审核,进入复审环节。如果存在标题*党**、封面*党**、虚假、推广信息等情况,系统就会对内容下架处理。

6、 其他因素

其他因素如粉丝质量、假粉、粉丝活跃程度和互动程度,以及用户对文章的喜爱程度都会影响推荐。

四、 如何提高推荐量

除了特别加权的要闻,*今条头日**平台的推荐是平等的,创作者可以根据自己对内容的经验和把控来创作自己认为优质的内容。了解头条的推荐机制,可以避免一些系统明确不欢迎的内容,同时掌握必要的内容创作和内容运营经验来提升自身内容对用户的吸引力,会对内容创作者有所帮助。

1、 坚持原创避免消重

根据头条的算法,只要是原创文章,都有可能获得展示的机会,转载的文章在消重机制以后,会失去推荐机会,因此,头条是鼓励原创的。面对热点事件要谨慎追逐,热点文章会获得比普通文章更多的总展现量,但其中会存在激烈的竞争,如果文章质量不是非常突出,会被其他文章占有读者的注意力,这其中的平衡需要作者自己去探索和把握。

2、 吸引人的标题和封面配图

避免出现标题*党**、封面*党**和题文不符等,会引发系统对推荐的*压打**。同时也利用好标题和封面,做好题文相符的同时,好的标题能引发用户对内容的点击和浏览,点击率和读完率是系统评价内容是否能够进一步扩大推荐的重要指标。

精准描述内容,给机器和用户提供核心事实,机器会依据你的标题,提取分类关键词进行推荐,随后内容的点击量与评论数,及用户停留时间将决定你的视频是能够继续得到推荐还是被“过滤”掉。

因此,在视频标题中选用合适的关键词就非常重要。清晰的标题会更容易被算法定向推荐给目标用户,更容易让用户在海量信息的推荐流中判断是否点击浏览你的内容,并在此基础上形成越推越广的良性循环。

3、 注重内容价值,面向用户需求创作高质量内容。

总的来说,优质内容才是根本,是推荐引擎最鼓励的,长期看,坚持优质的内容,会获得更高的展现量。要确保标题、封面图传达信息清晰,对用户有足够吸引力,保证配图相关性强、运用排版工具突出重点内容、对图片进行适当标注说明等,都有利于提高用户的阅读体验。避免正文的格式错误、文章不完整或有重复的段落以及其他的一些低质的内容。

更高的推荐量还是需要覆盖更深度和广度的读者,体现出对于内容的判断力和写作能力。推荐系统永远是鼓励更高质量的文章。

4、 让机器理解你的关键词

让机器理解标题和文章的关键词,产生明确能够对应你目标阅读人群的标签,使得系统能够在目标人群中广泛推荐,从而获得高推荐量。在标题、正文里要高频使用实体词(名词、代词),避免使用非常规词,比如活久见、城会玩等,在使用人名地名时也要尽量用全称而不用缩写或外号。

5、 发文频率

经常发文,保持一定的活跃度,对维持粉丝及用户热度也很重要。

6、 增加与粉丝的互动

适当维持一定的粉丝互动,可以增加阅读者的活跃程度,读者活跃会引发更大范围的推荐。

7、 做好内容垂直度

系统对账号标签的识别会通过内容关键词来建立,文章题材随意、宽泛的账号,系统不容易建立比较明确的特征标签,得到推荐的概率更低。因此,保持一定的内容垂直度,有助于机器对账号内容特征建立标签,对更大范围的用户匹配推荐有利。

8、 热点话题

网络上关注度较高的话题,会引发大量人群的关注,会触发系统大范围的推荐匹配。对热点话题的参与,往往会带来大量的访问量。

当然并不是达到这几点就一定可以获得很大的推荐量,更高的推荐量需要创作者将理解头条推荐机制和优质内容创作结合起来,规避不当行为,利用好标签匹配机制;同时,坚持创作内容的鲜活,增加阅读者互动和活跃程度,让机器识别到内容的潜力,不断扩大推荐范围,从而获得更佳的推荐。

[注:本文内容为原创,任何组织、个人不得侵权,如有转载或应用需求,请联系本头条号后台]

作者:林剑飞 尚姝