内容推荐系统:你的文章至少要先让它明白
传统的搜索系统
在内容推荐系统没有大规模应用之前,人们更多的通过搜索的方式来获取信息。
搜索系统通常划分为两部分: 离线部分 和 在线部分 。
离线部分
其中离线部分专注于内容的搜集和处理,搜索引擎的爬虫系统会从海量的网站上抓取原始内容,并建立不同的索引。
索引是基于关键词的序列,每一个关键词对应一长串内容。
在线部分
在线部分负责响应用户的搜索请求,完成内容的筛选和排序,并把最终的结果返回给用户。
当用户输入搜索词后,系统会首先把你的搜索词进行分词、转换、扩充、纠错等处理,以便更好的理解用户的搜索意图。
比如用户只输入一个「NBA」的关键字,系统会发现「NBA」和「美国职业篮球」是同义词,就会进行扩充,以便两个词都可以应用在索引的查询上。
再比如你输入了「NAB」,系统会认为你的输入有误,会将其纠正为「NBA」,并返回相应的结果。
在结果展示给用户之后,用户的点击反馈会影响到排序环节的模型。
推荐系统
以搜索系统为参考基础,可以更清晰的理解推荐系统的工作方式
推荐系统的离线部分同样需要通过各种方式获取推荐的内容。
对于内容平台来说,离线系统依据推荐引擎对信息的不同理解维度,对这些内容进行索引化处理。
在线部分用来量化用户的请求、完成内容的筛选和排序。
推荐和搜索最大的差异在于:用户是否表意明确。因此,推荐系统需要尽可能的完善用户的长期画像(对哪些类目、实体词、话题),和短期应用场景(时间、地点)。这样才能在用户的每一次请求时,更好的揣摩用户的意图。
当用户打开内容推荐应用的时候,提交给系统的信息包包括:
•时间•地理位置•网络环境•手机设备型号•登录的ID和身份信息
基于用户的ID,推荐系统会从数据库里取出用户的画像数据。
召回内容和排序操作与搜索系统比较相似,系统会基于类目的查询,和实体词的查询分别获得内容集合。
值得注意的是,在推荐系统中,用户的行不仅仅像在搜索系统中那样,具有针对内容价值的群体评估意义,还具有针对用户画像的个体评估意义。
在群体评估意义层面,每一个读者就像是一名陪审团成员,通过自己的行为来决定一篇内容的好坏。
在个体进意义的层面,用户的阅读反馈在持续改造着自身的画像。
基于推荐系统,自媒体内容的优化启示
对于内容创作者来说,只有清楚自己的内容是如何抵达到用户面前的,才能更好的「包装」和「加工」内容。
一篇内容能够到达用户面前,是因为它能被机器理解。
一篇内容有机会扩散给更多的用户,则是因为它能收获用户的满意点击。
服务于机器,服务于人,这样的内容才能在推荐系统中获得良好的分发量。
推荐的起点:断物识人
尽管内容推荐系统有着高深的算法,但是其基本原理是非常朴素的: 更好的理解待推荐的内容,更好的理解要推荐的用户,从而高效的完成内容与人之间的对接。
断物识人,是一切推荐行为的起点。
断物
想要把内容推荐给人,首先要明白内容的特点是什么。
如果连待推荐内容的特点都说不明白,那么就妄论推荐效果了。
更好提取和表达内容的特点 ,就是断物的意义所在。
断物最简单的方式:贴标签。
标签是我们对多维事物的抽象理解,抽象出的事物更具有表意性。
在不同的应用场景下,推荐系统会对标签的集合有针对性的投射,有倾向性的选择不同的标签换取匹配信息效率的最大化。
通常来说,标分类系统是树状的。在分类节点里,每个节点都有严格的父类继承关系。而且由于树状的层次性较好,所以在内容分类领域有很多应用。
标签则是网状的,更强调表达的属性关系,而非继承关系,只有权重大小之分,不强调包含与被包含关系。
这就使得相对于分类而言,标签系统更加灵活。
标签是弱化的,每个用户都可以参与进来,基于自己的偏好贴标签,从而实现规模效。
标签典型的产出方式有专家系统和普通网友两种。
用户画像的三类应用场景
精准广告营销
用户画像对广告营销应该说是最典型的应用场景,当给用户打上各种维度的标签之后,广告主能够借助这些标签来圈定用户,以便更有效率的触达目标人群。
行业研究
借助用户画像,我们可以了解不同行业的动态进展。
比如90后、00后的购物娱乐消费分析,不同地域的用户消费差异分析,特定行业中用户的消费特点
通常,平台会定期发布此类报告,帮助内外人士更好的了解细分领域的最新特点。
产品效率化
信息匹配是是最典型的场景,所有的平台往往都是基于用户的画像信息来优化推荐排序,以实现人和信息的高效匹配。
从而降低效益、降低成本的。
用户画像通常划分为静态的和动态的
静态用户画像
用户独立于产品场景之外的属性,比如性别、学历、年龄、婚育状况。
这些信息往往相对稳定,而且具有统计意义。
动态用户画像
用户在所有的场景中所产生的行为数据。
包括对某篇内容点赞、评论、分享、关注了某个作者等等。
在众多的显式行为中,由于场景的不同,不同的行为权重也不同。
隐式行为包括在某页面的停留时间、用户的操作行为轨迹。
显式行为的权重要高于隐式行为。
