用户画像动态规则解析 (用户画像案例图片)

用户画像深度解析

用户画像深度解析,用户画像什么意思

目录:

第一部分:前言

第二部分:概念篇

第三部分:工程篇

第四部分:解惑篇

第五部分:延伸篇

第一部分:前言

用户画像从四个方面来讲:

1. 概念篇:介绍用户画像是什么。

2. 工程篇:讲述用户画像如何落地,如何从技术层面以及从产品层面落地,至少解决一般公司要做用户画像系统80%以上的问题。

3. 解惑篇:如何才算做完一个完整的用户画像;或者通过应用于推荐、广告以及搜索以及去做数据运营的时候,发现问题,解决badcase,优化画像。

4. 延伸篇:DMP系统与用户画像千丝万缕的联系。

第二部分:用户画像的概念

一、用户画像是什么

用户画像深度解析,用户画像什么意思

用户画像到底是什么,能做什么,需要什么,怎么做。这四个方向也是所有策略人必须问自己的问题。

用户画像深度解析,用户画像什么意思

用户画像是对用户信息的向量化的表示。

为了交给计算机去计算。当下流行一些可视化的,类似标签云之类的用户画像,往往没有太多实际的应用价值,或者说只有做汇报的时候有一些应用价值。真正的用户画像其实是给机器看的,给计算机去运行的,而不是给人看的。因为用户画像是像量化的结果,而不是标签化,标签化只是用户画像的一种。因为向量的维度不一定需要人去理解,而是交给计算机。所以做用户画像之前,需要明确,不要为了用户画像而做用户画像。

二、用户画像能做什么

用户画像深度解析,用户画像什么意思

1. 数据运营:知道我们的业务的好坏。

2. 智能推荐。

3. 广告投放等策略。

三、用户画像需要什么

用户画像深度解析,用户画像什么意思

智能时代,最重要的就是数据。这一套流程通过信息变成数据,数据变成知识,知识变成价值。不管是数据分析,数据挖掘,用的都是同一套知识方*论法**。

四、如何获取运用数据

用户画像深度解析,用户画像什么意思

第一步:确定目标

明确需要什么数据。

第二步:选取数据获取的方案

1. 人工采集方式:代码埋点、问卷收集。

2. 自动化收集:可视化埋点、全埋点等。

3. 爬虫收集:获取竞品数据。

但是目前来说可视化埋点有一个壁垒,即通过代码的上报给服务器,上传时间间断不连续,有时候会丢包;全埋点有比较好的方案,但真正收回来的准确率不是太高;

第三步:数据加工

数据评估以及数据验证,验证收集回来的数据到底是不是适合我的业务,因为毕竟各个业态或者各个业务线,需要的数据是不一样的,最后继续落点,中间要做一些分析处理,可以说你要真要首先我们第一个要做一些分析处理,第一个为什么?因为第一数据清洗的目的是要解决数据质量的问题,第二个是要让数据更适合去做数据挖掘或做数据治理、数据处理。

1. 数据清洗。

数据清洗目的一是解决数据质量问题,二是让数据更适合做数据挖掘。数据本身不会撒谎,而是收集样本的维度、数据量会撒谎。良莠不齐

数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。

A)各种汇总:平均、加总、最大、最小 各种离散化,聚类、自定义分组

B)降维:随机森林、主成分分析

C)归一:无关字段清除、多指标数值单位不同问题、多指标数值、单位不同问题数据交付

2. 数据评估:由etl变为etvl:抽取装换验证加载

3.数据提取:loading的过程

4.分析处理:即一般的数据分析流程。

第四步:标准化输出数据

目的是让数据满足不同业务不同需求,需要设计dataapi。

第五步:数据交付

1. 公有化交付:在开放云直接提交需求或上传待处理数据,项目执行完毕后,*载下**结果数据。

2. 私有化交付:在公司内网部署数据客户端,在公司内网批量提交需求并获取结果数据,数据隐私性更高

这也是数据团队专业之一,中台需要跟各个业务线去对接,需要考虑上私有化的交互,公有化的交互,如何加密,对称加密,非对称加密等,如何解密。

经过以上步骤,最终获取数据。

五、用户画像的三个关键的因素

用户画像深度解析,用户画像什么意思

用户画像三个关键因素:维度、量化、效果

1. 维度:不同公司的业态不一样,与之对应的维度也不一样。整体设计原则需要遵循可理解、符合业务要求、颗粒度合适。

2. 量化:量化即标签及标签值的构建。用户画像的每个维度的量化其实是交给机器的,然后以目标为导向,然后去反向的推导我们的用户画像,这样才有意义。

3. 效果:画像建立的最终目的是应用,效果非常重要,需要根据最终使用的效果,像排序的好坏、点击率、转化率的情况以及AUC类的指标,去反向的去优化用户画像。

六、 用户画像构建的三种方式

用户画像深度解析,用户画像什么意思

1. 查户口:直接取

直接从数据库中获取原始数据作为用户画像的内容

case示例:用户注册资料、购买物品的历史数据,消费内容的历史数据等,这种原始数据除了只做了数据清洗等工作,数据本身其实没有做任何挖掘以及归纳总结。

总结:跟调查人口普查一样,其实并没有什么技术含量,这种方式得到的数据主要用于用户冷启动。

2. 堆数据:统计

通过整理内外部堆积的历史数据,做数学统计的工作,这也就是现在95%以上人所理解的用户画像数据,比如常见的兴趣标签,就是通过数学统计的方式得到的,从历史行为数据中去挖掘出标签,然后在标签的维度上做数据统计,用统计结果作为量化结果。这一类数据贡献了常见的酷炫用户画像,标签云等。

3. 黑盒子:算法--挖掘型和预测型

通过用机器学习、深度学习以及强化学习的方式,学习出无法直接理解的稠密向量,只能通过计算机去理解,但是这种方式得到的稠密向量,在实际的运用当中起到的作用非常大。

七、 用户画像构建的具体方法

用户画像深度解析,用户画像什么意思

第一步:把非结构化的文本结构化,提取出数据精华,然后保留关键的信息。

第二步:是根据用户的行为,把结构化的物品内容传递给用户,以用户自己的结构化的信息去合并,便于后续使用。

常用算法:

1. 关键字提取:提取能反应文本主题或者主要内容的词语,常用的如TF-IDF和textrank等算法。

2. 实体识别:识别收集回来的数据,将其中人物、地点以及一些历史事件等信息从非结构化文本中抽取出来。常用模型如CrF模型等。

3. 内容分类:将文本按照一定分类方式,将粗颗粒的内容变成细颗粒度。

4. 监督或者无监督:把文本变成结构化的方式之一。

5. 主题模型:以非监督学习的方式对文集的隐含语义结构进行聚类。

6. 嵌入:典型的如Word2Vec,通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。

八、 标签选择

用户和物品分别由用户画像和物品画像。里面会有很多关键字以及分类,存在一些比较重要的信息,怎么去提取?业内最常用的两个方法,一个叫卡方检测,一个叫信息增益。

思路即物品的结构化文本变成一个文档,然后通过映射,把用户对于物品的一个行为看成一个类别,然后做一个文本集合,然后去做特征选择,找到用户喜欢或者说预测喜欢的物品是什么样子的。

第三部分:工程篇

一、用户画像架构

用户画像深度解析,用户画像什么意思

工程篇的图(来源于网上)

架构大同小异,细节是魔鬼

二、 用户画像建设过程

用户画像深度解析,用户画像什么意思

第一步:基于业务体系构建标签体系

目的:广告公司是为精准广告服务,电商是为用户购买更多商品 ,内容平台是为了推荐用户更感兴趣的内容提升流量再变现。

考虑维度:

1. 目标:管理标签;让维度产生联系,不孤立;为后面的建模提供一些子集。

2. 数据质量:略。

3. 场景:根据实际的业务需求,确定标签划分的粒度,一般来说,标签的等级分为一级、二级、三级、四级以及更多层。

维度设计的原则:方便管理标签;让维度产生联系,不孤立;为后面的建模提供子标签。

以上原则即MECE原则:让标签相互独立、多层级拆分。

第二步:构建特征工程

也是建模的过程,基于用户行为数据到标签影射的规则和权重。

第三步:建立数据仓库

收集不同系统的数据进行数据清洗到数据仓库。

第四步:计算特征标签值

计算每个用户的标签值

三、 画像示例

用户画像深度解析,用户画像什么意思

1. 人口属性:基础信息、位置信息等。

2. 用户分类:用户价值和人群属性等。

3. 商业属性:经济实力、购物属性等。

4. 内容标签:对于物品的便好。

5. 行为便好:行为习惯、产品使用习惯、购买行为等。

以上标签需要我们根据使用场景、抽象、重要提取。

四、如何解决建设标签画像,数据不全的能与不能

用户画像深度解析,用户画像什么意思

原始数据来源于用户行为日志数据,应用原始数据通过数据清洗变为以下三种标签。

1. 事实标签--直接提取:loading 用户注册时候填写的年龄等。

2. 模型标签--建模分析:兴趣偏好类等。

3. 预测标签--算法预测:偏好类、生命周期类等。

五、数据建模应用

用户画像深度解析,用户画像什么意思

第一层:需求层

确定目标:根据业务确定标签,是要预测年龄便好还是为了广告投放。

第二层:数据层

数据获取,数据清洗、数据整理的过程。

第三层:分析层

1. 选择变量:例如预测年龄,选择什么数据。

2. 重构变量。

3. 算法选择:聚类、分类、预测、回归(lr、tf-idf)、关联、rfm、异常检测等

4. 设定参数:算法层面。

5. 加载算法。

6. 测试结果。

第四层:输出层

数据整理完成后,经过a/b test,得出结论,同时也可以通过输出规则、模型优化的出结论,撰写最终报告,确定的出的结论是否是想要的,以后如何持续迭代。如果的出的结论并不满意,需要回滚并定位原因,是数据分析数据清洗质量度问题,还是算法选择问题,还是变量的问题。

六、模型分类

用户画像深度解析,用户画像什么意思

建模的目的是为每个标签置顶合理的计算标准。

业内主要模型分为:基础模型、活跃度模型、内容便好模型和用户价值模型。

1. 基础模型—统计、聚类型

基础模型即基础数据,包括用户数据、内容数据以及用户行为数据等三部分。

需要根据用户行为构建相应的数据模型,生产标签与权重,需要明确“是哪一个用户在哪一个触点做了什么事情”。

A)时间:自然时间。

B)触点:内容和网址,通常来说内容决定标签、位置决定权重。因为用户只有消费内容,才能确定用户标签,用户行为反应在标签上即权重。

C)行为:具体行为。

注意事项:

a)时间衰减:用户行为在标签上需要。

b)权重设计:例如用户喜欢美妆品类,如果一直关注,随着访问次数的增多,权重也在逐渐递加。这里递加的设计可以用次数,但以资讯类访问为例,可以访问一次增加1,但实际设计时需考虑有效访问,如果阅读一篇文章需要30秒,而某次用户访问持续时间为10秒,实际权重是会降低的,同样的例如视频类产品,完整的观看,或者观看超过95%权重正常加1,但如果只看50%,实际权重会减一。

总之是用用户行为成本决定标签的权重,用户表达对物品真实的喜爱权重增加,用户用负反馈行为表达对物品的不喜欢,权重减少。

2. 内容便好模型—挖掘型

内容便好模型即通过用户以上标签值累加来衡量用户对内容的整体便好,例如对单一鞋子的便好总和可以代表用户对鞋子类目的便好程度,得出各个类目的便好与差别。这个结果可以用于推荐或者搜索的排序。

3. 用户活跃度模型-挖掘型+预测型

用户活跃度模型可以根据用户来访互动情况以及核心功能的使用频率综合判断,同时需要根据不同的业务梳理。例如每周每个用户访问频次超过多少,即定为核心用户;每个用户消费多少物品,定为核心用户;内周互动几次,定为活跃用户;每周点赞多少次,定为活跃用户……并依次定义一般用户与流失用户。

4. 用户价值模型

即rfm模型,将用户行为拆分为不同的维度,用户访问的时间、访问的频次、访问的次数做价值划分。

以上即四种经典的模型。

第四部分:用户画像系统

一、用户画像系统

用户画像深度解析,用户画像什么意思

用户画像系统主要由首页、标签列表、用户列表、用户分群、标签管理等部分组成

用户画像深度解析,用户画像什么意思

1. 画像首页:包含基本特征、用户管理、查询条件。需要注意增删改查功能的完整合理,以及画像更新频次。

2. 标签列表:包含列表页、详情页。需要注意权限的管理、权限的分级。

3. 用户列表:包含但用户画像列表和单用户画像。前者需要包含一些基础的字段以及查询条件,后者需要单用户的基础信息:用户的基本性别年龄,用户生命阶段:新用户、沉默用户、活跃用户及流失用户,营销关系:消费内容、广告效果的便好,30s认知用户:重要的特征,包括用户消费便好、子品类、消费习惯、消费时间段、人群特征、活跃度等,消费能力:预测月收入等,代表用户收入水平,二级品类便好,即用户-内容矩阵图等。

4. 用户分群:可以根据一定属性自定义用户分群,例如根据用户的基础属性或者消费行为,或者用户行为做人群划分,依次展示人群列表,同时注意人群的拓展。

5. 标签管理:

5.1 标签分类管理:即增删改查,与数据库的增删改查是一致的;

5.2 标签录入:基本字段,包含标签分类、标签名、标签值、标签算法描述、计算周期、5.3标签状态,主要业务线全线分级,需要管理员审核等

5.4标签列表:查询条件;标签状态;待审核列表;标签详情等

5.5异常标签:例如电商业务,用户浏览内容与消费水平不想当,根据浏览行为挖掘的标签实际属于异常标签,在消费类场景中,不能通过这种异常标签来做推荐。此类标签需要识别与管理。

5.6标签回收站:废弃标签管理回收

5.7权限管理:按照不同的业务线设计不同全线。

第五部分:解惑篇

一、 模型与效果

用户画像深度解析,用户画像什么意思

完成的标签如何验证效果?是否真实的反应用户价值?为什么做了模型效果不好?如何ya验证效果好不好?

通常验证方法主要有三层:

1. 算法基础指标

例如查准率、auc等模型算法指标。

2. 交叉验证

根据业务逻辑,做交叉验证。

3. 业务方验证

通过业务方使用,发现badcase,定为画像问题,反向优化用户画像。

第六部分:dmp与用户画像

一、 dmp-数据管理平台与用户画像、用户画像系统关系

dmp的核心是数据处理的平台,整合了多方数据,自有用户数据、合作方数据、第三方数据等,其概念范围大于画像。相当于数据大脑的作用,通过dmp平台,可以做广告投放,智能营销,也可以做内部用户的运营与算法。

常见的dmp有广告主自有DMP、大厂的自有DMP、第三方DMP以及广告DMP等