03 “活”的数据才是大数据
无论是企业还是个人、无论我们承认与否,在大数据时代,我们周围到处都充斥着碎片化的数据。为此,我们很容易迷失在海量的数据之中。我们盲目地进行大数据投资,收集越来越多的数据。但是,令人沮丧的是,这些数据却是“死”数据。那么,什么是“死”数据呢?在我看来,“死”数据就是单纯存储在数据库中,无法被分析和使用,并且不能够产生价值的数据。
如何激活这些“死”数据,让整个大数据“活”起来,并成为企业运营的牵引力呢?答案就是:把数据用起来!
大数据的真正价值是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入这个自循环中,并应用于各个行业。举个最简单的例子来说,现在的很多网站都有推荐功能,很多推荐出来的东西,如音乐、视频、商品,都可以让用户来选择“喜欢”或者“不喜欢”(当然,不点击未必代表不喜欢)。这样,企业就可以通过用户的选择基于计算机后台算法为用户重新推荐,这就变成了一个循环:从基于已有的数据进行“分析-推荐-反馈-再推荐”的过程。当然,自循环还远不止这一种形式。多样化的自循环方式打开了大数据之门,而进入这个循环的关键就是,从解决问题出发。
目前,企业对于数据应用仍然持有半信半疑的态度。多年来,企业因无法建立数据收集的循环,致使其运营数据更多地建立在直觉的判断和分析基础之上。当面对周围海量的消费者数据时,充满了危机的大数据更难为企业的运作提供清晰的思路。无从下手,成为企业面临大数据时代的核心短板。这时,如果没有找出相关的关键解决方法,企业就会在由海量数据构成的新兴市场中错失发展的良机。
在数据的自循环中,有两个核心的关键点:一个是“活”做数据收集,另一个是“活”看数据指标。所谓“活”做数据收集,就是指企业不要局限于只收集自己用户产生的数据,还要把“别人”的数据收集过来进行综合分析;“活”看数据指标,就是指企业不要局限于已有的数据框架,而应该结合用户需求的不同场景来灵活应用收集到的“活”数据。
“活”做数据收集,抓住相关性
“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。
关于数据收集,中国研究大数据的著名学者、电子科技大学的周涛教授曾分享了一个非常重要的观点。他说,做大数据收集不外乎两方面,一方面是“自己用”,即用其他外面的数据来增加自己手上数据的精准度,为我所用;另一方面是“给别人用”,即把我的数据贡献给外面很需要我的数据的人,从而提高他的数据的精准度。
数据分析 实例
亚马逊的数据收集有一个很经典的例子,恰恰体现了这一点。在很多年前,亚马逊就主动去收集用户的IP地址,然后从IP地址破译出用户所处位置的附近多少公里内是否有书店。工作人员从收集到的数据中了解到,一个人是否选择在网上买书,很重要的原因是他的附近有没有书店。
亚马逊是主动收集数据,即通过收集一个外部数据,来帮助自身判断线下是否存在潜在的竞争对手。
企业在做数据收集的时候,并不总是能够直接收集到所需要的关键数据,这时候就需要变通一下了。我曾经在一个外贸B2B平台工作过,当时很多人不知道我是如何找出新品种的趋势的,我也没有对任何人说过我的招数,有的人甚至以为在我背后有高手相助。而事实上,我之所以发现了新品种,是通过追踪美国垂直行业电商的广告关键词变化来实现的。
中国的生产商跟美国消费者的距离如此远,我们如何才能收集到美国消费者的数据?一般来说,是不可能的。有一批厂家是从中国海关购买数据,但是海关的数据是滞后的,无法让企业及时获取行业的发展趋势。不过,这种趋势就在美国采购关键词的那些经理手上,而这个数据是可以从国外网站搜索到的,于是答案就这样到了我的手上。
在美国,这些搜索引擎营销(SEM)专家会为公司设计购买关键词的方案,而我就主要关注这些人的数据,看他们换了什么关键词,以了解美国的商品发展趋势。这样,我就可以很快地告诉类目经理,美国现在流行什么样的东西,而这就是利用外部数据来帮助自己做决策的方法。
以鞋类为例,我的做法具体来说,先是观察在美国做得最好的几家鞋类网站买入了什么关键词、变换了什么关键词、有什么关键词是常态的以及有什么关键词是在季节更迭的时候才买入的。在观察到这些关键词之后,我放到谷歌中去观察关键词的增长趋势,去eBay看看这一款鞋子有没有交易及价格的变化。在知道eBay有交易之后,我再放到国内电商平台中搜索这个产品。如果没有出现相应的搜索结果,就意味着这可能是一个良机。
因此,做大数据收集,有时候需要更多的灵活变通。从上面可以看出,亚马逊的案例的确经典,因为它找到了消费者购买决策链条中的一个关键点;而B2B寻找关键词的重点在于如何观察第三者数据。每个人都知道在收集消费者数据时最好是观察直接用户,但如果没有这个数据,你观察什么数据?答案就是,去观察行业内对这个数据最敏感的那些人。
生活中其实也有这样的例子,我曾经给我的朋友分享了一个很简单且有趣的例子。如果你想知道香港的某家酒楼生意好不好,你问问门口卖报纸的人就知道了——香港人喜欢去喝茶的时候买一份报纸。
其实,这个规律不是我观察到的,而是香港税务局发现的。香港税务局如果担心酒楼虚报营业额的话,就可以通过直接去查卖报纸的商家卖了多少份报纸来判断,这是一个非常有趣却很实际的灵活收集用户数据的案例。
“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。而“活”做数据收集的一大好处,就是能够规避现有数据框架的弊端,更好地反映用户的实际需求和企业的实际情况。媒体常用的“克强指数”是“活”做数据收集非常好的案例,通过耗电量、铁路运货量和银行*款贷**发放量三大数据的结合来观察经济的发展,有助于剔除GDP统计数据中存在的水分。
“活”看数据指标,动态地使用数据
把数据激活,从静态数据变成动态数据,必须要用场景来验证。
我们不仅要灵活地收集数据,而且还要注意到,数据收集只是第一步,如果不让数据“活”起来,仅仅是把我们收集的数据简单堆砌在一起,是没有意义的。
用场景验证
在注册某个网站时,消费者常常需要填写自己的性别。我填写的答案是男性,但是如果你分析我的购买行为时会发现,很多时候我的购买行为告诉网站,这些商品的目标用户并不是我自己,因为我也会为我的妻子和父母买东西。
当收集到的这些数据不能为企业所用时,企业就永远不知道关于我的这个数据原来是不准确的。这些数据好像是准确地描述了我的性别,但是却不能很准确地描述我的搜索和购物行为。
在梳理阿里巴巴的数据时,我们惊讶于为什么阿里巴巴会有18个性别标签。乍一听,很不可思议。你肯定会想,阿里巴巴是不是在闭门造车,是不是自己凭空造出了这么多的性别?
事实上,每一个性别表现都并非看上去那么简单,因为它的分类是基于用户在不同场景中不同表现而作出的。这就揭示了一个问题,我们每个人都不会只呈现出简单的一面,比如在安静时和在人前时,我们就会表现出不一样的自我。不同的性别标签其实就是应用了这一点:同样的人在搜索商品时可能会表现出不一样的行为特点,而这些不一样的行为就是我所说的场景,结合场景应用数据就是“活”用数据。其实,有多少个性别标签并不重要,重要的是如何让用户在不同的场景中获得更好的服务。
亚马逊一直在自己的商业活动中应用这个理论。多年以来,亚马逊就使用动态模型——相对于“历史的你”,它的推荐更相信“现在的你”。所以,它相信今天登录网站的你有什么需要与兴趣,比起历史的“你”来说更重要。
我们不妨开拓一下思路,假如你在一家网站买了一份保险,又买了一件衣服。这两件事情,哪一个能更多地证明你是“本我”,而哪一个能更多地证明你是“被别人影响的我”?
推荐系统的运作原理是通过推荐一件商品去影响你的购买决策。一般来说,你要为自己做一个很长远的购买决定时,会综合考虑一些因素,这时的购买决策会跟你本身的性格产生紧密联系。比如,你的性格是不爱晒自己的东西,不爱很刺激的活动,那么你就不会买一辆跑车,这是你深思熟虑之后作出的决定。
总的来看,对于用户购买行为的场景,我们大都无法判定它的产生到底是因为长期积累的性格多一点,还是受今天心情的影响多一点。而且,前提是假定,别人没有用你的账号购物。如果今天是你的女朋友借了你的账号去购物,这个系统可能就无法作出正确的推荐了。
把数据激活,从静态数据变成动态数据,必须要用场景来验证,静态数据是没有用的。理所当然,企业很容易一开始就假定“你告诉我身份证上你是男的,肯定就是最准确的”。从表面上来说,企业凭借用户自己填写的数据来做决策会更精准,但结果却相反。在做了很多测试后我们发现,动态的观察数据更能准确地反映出用户的信息和需求。
但是,如果用户在做一个比较重要的购买决定时,真实性别、真实职业以及一些描述个人的静态数据对于企业来说就更具有参考性了。对消费者来说,购物就是决策,凡是决策,都是要对比、细分、溯源、看趋势。所谓的冲动消费是“什么都不管了”,直接拍下,那就要分析购物当天的场景了,或许那天是“双11”?
别再死盯着ROI
从公司价值的角度来看,我在B2B外贸公司得到了一个重要的经验——如果企业不把数据活用起来,只是死盯一个数据的话,企业的运营必定不会理想。
当时,我所在的公司买入广告关键词时,一直用的重要考核数据是投资回报率(ROI),即每个广告关键词能给公司贡献多少交易量。如果我们灵活使用数据,会怎么样?
我当年就对公司的管理者提出了一个建议:把一些使用得很好的广告关键词(排行榜前30%)拿出来,调查根据这些关键词登录网站购物的消费者在三个月后是否还会来买东西的问题。
事实证明,这些用得很好的广告关键词,有一半只吸引了用户的一次购买行为。因为,这些公司买的关键词都是“最便宜的××”,这些关键词对某些消费者来说有着很大的吸引力,但是并不总会产生巨大的效用。
也因为这样,企业吸引来的用户都是一般消费者,却不是真正做批发的人。企业管理者完全不知道当时掌控ROI的部门其实是在做赔本生意。
所以,机械式地使用数据的结果就是,企业会因为“只看狭义ROI”死得很惨。ROI只能体现广告关键词在当天使用的效果,并不能反映出这个关键词以及其吸引来的用户对网站的长期价值。当时,公司把所谓的自己最“好”的广告关键词删掉之后,管理者发现3个月内企业的业绩没有受到任何影响。
“活”用数据,就是你是否能看出这个数据本身的局限是什么。一方面,是我们的数据为用户体验改善了什么;另一方面,企业在使用数据时,对活数据的运用解决了什么问题或者开创了什么机会。要牢牢记住,活用数据很重要。
“活”的数据是“活”用数据的精髓所在。《孙子兵法》曰:“兵无常势,水无常形,能因敌变化而取胜者,谓之神。”这句话在数据应用方面同样适用。如果企业能够基于场景和相关的“活”数据将数据应用发挥出最大的价值,那么新的商业模式的开创也就会在不远的将来成为可能。
数据化思考
别再做“碰巧游戏”
在开始之前,我先讲一个有趣的故事。有一天,全球最大的职业招聘网站忽然发现从雷曼兄弟公司登录的来访者多了起来,但是并没有深究原因。第二天,雷曼兄弟宣布倒闭。原来,前一天雷曼兄弟的员工都到职业招聘网站找工作了。
谷歌宣布退出中国的前一个月,我在LinkedIn上发现了一些平时很少露面的谷歌产品经理在线,这也是相同的道理。
试想,如果LinkedIn能够针对某家上市公司选择性地分析数据,会不会挖出其中潜在的商业价值呢?我相信,很多网站现在还停留在“注册用户数”这种简单的数据收集上,而不知道还要收集上述有价值的数据信息来使企业获得发展。
好的分析师相当于市场解码器
我常常会说,今日的数据分析师,需要有点军师的味道——从枯燥的数据中看到解开市场发展密码的本事。简单来说,就是具有商业意识的数据分析师,如果监测到网站上拥有6岁之下孩子的用户群在增加,那么他基本可以预测出奶粉的销量也可能呈现上升趋势。
从更深一层来看,和传统卖场一样,网站中商品丰富性的作用大不相同。有的产品为了赚钱,有的产品为了促销,有的则用来吸引流量,这也就解释了不同商品在网站上摆放的位置不同的现象。同理,只有具备了商业敏感度的数据分析师,才会懂得用什么数据来驱动公司实现经营目标,而绝不会单凭交易量就决定商品策略。
评估一个新生电商平台的竞争力,你会观察什么数据
交易量?不对,因为平台是双边市场,不同于单边的B2C卖场,除了买家流量之外,对于一个需要活力的商业平台来说,每天有多少新的优质卖家加入进来也至关重要。比如,他们卖了多少东西和卖了什么东西,这对新生的电商的竞争力来说都起到了不可或缺的作用。因为,此阶段商业竞争最核心的影响因素是人气,而非实质交易量。如果新加入的卖家卖不出东西,只是老卖家的交易量在增长,即使最后的交易量每天都呈增长趋势,也无法极大地提升其竞争力。
换个场景看,一家刚踏入市场的B2C和已经占领大部分市场的B2C,它们的关注点会一样吗?当然不可能,因为前者看的是流量,赚的是人气;但流量对于后者的意义就没有那么大了,因为它们更关注交易率、转化率和回头率。
组装你的数据仪表盘
我把数据信息的梳理过程,理解为数据世界里的“仪表盘”。比如,在开车时,如果水温过高,仪表盘就会亮灯提示;同样,网站的关键信息也可以监控,在电子商务交易中,行为数据和商业模式之间的逻辑关系组成了“仪表盘”——好的仪表盘,对于商业活动中的好现象和不好的现象都会有敏锐的反应。
为了方便理解,我想出了两个名词:前端行为数据和后端商业数据。前者指的是访问量、浏览量、点击率及站内搜索等,是反映用户行为的数据;而后者更侧重于商业数据,比如交易量、投资回报率、客户终生价值(LTV, Lifetime Value)。
分析数据“走火入魔”的人会明白,数据就像散布在夜幕里的繁星,它们彼此之间布满了关系网,只要轻轻按动其中一个亮点,就会驱动另外一个亮点产生变化,而这个动态的网,就是“仪表盘”。
将行为数据与商业数据对接起来时,我们可能都会比较关心网站的用户群,以下就是一个相关的例子。
某天,某网站发现自己的前端注册量增加了不少,访问量也提高了,但交易量却未见大幅度的提升。原因是什么?估计数据分析师们每天都在思考这个问题,那么,在这里我们就将这个问题进行分解,以寻找相应的答案。
处在网站前端的人只知道点击量等数据,比如,谁一直在重复购买?谁影响了5%~15%核心用户群的购买行为?谁在给网站做正面或负面传播?但却很少有人会关注后端的商业数据。
如果网站后端交易环节的操作人员只知道卖东西,却不知道提出这几个问题:一个客户登录网站平均停留时间是15分钟还是30分钟,会对将来重复购买的影响大吗?一个客户登录了网站社区和没登录社区,对产生交易量有影响吗?此时,却很少有人会关注前端数据。
你发现这中间的问题了吗?行为数据与商业数据没有对接起来!
于是,前后端数据出现割裂,没有人知道它们的内在关系;作为网站的决策者,不知道网站核心用户群的行为特征,也不知道怎么去刺激核心用户的增加,更不知道从一个用户登录网站之后到离开哪些环节需要疏通的话,不死就真的是万幸了。
当然,这个例子也只是管中窥豹。一个平台运营商,反映用户行为的前端数据与后端的商业数据千千万万,卖家和买家也是万万千千,但是在了解前端哪一个数据对整个网站后端的交易量有最大影响后,就只须针对这个前端数据猛出力,必然会刺激后端数据的增加;反过来,后端哪一个交易数据比较高,弄清楚是从哪一个渠道收集的、主要贡献用户是谁,网站的产品设计就要向他们倾斜,如此才会使渠道前端“转化率”等关键数据得到提升。
如果一个网站的核心用户群每月以10%的速度在增长,不火也是怪事。
遗憾的是,今天许多电子商务公司,每天都在做“碰巧”游戏:今天推荐A家的产品,明天撤下A家的产品;今天做低价促销,明天又做线下活动。这些决策的改变,没有“仪表盘”的指示或良好的监控,都是闭着眼睛在“碰巧”。
世上哪有这么多“碰巧”,还是快睁开眼睛,认真看路吧!