04 全域大数据,大数据的颠覆者
大概三五年前,我们还在为移动化兴奋不已;而今天,我们已经开始面对全域大数据、面对来自四面八方的传感器。大数据已经完全不是“移动化”这么简单了。
数据,决策的瞄准镜
随着无处不在的终端及应用所收集的数据越来越多,将来有一天,无论你去哪儿,都会留下“脚印”。全域大数据带来的变革不限于数据本身,而是从全新的角度去思考社会和商业模式将如何被改变。
在移动化的初始阶段,我们觉得手机是一个结合了媒体、沟通、互联应用的超级终端传感器。渐渐地我们发现,离开手机一会儿就觉得不自在,而从数据收集的角度来说也出现了一个新挑战:PC端和手机移动端这两个终端上出现的是否为同一个人?这个现象引发的问题在未来会变得更明显。在未来,除了用手机,智能电视、智能家居、物联网汽车……我们将和所有的东西实现联结和互动,已经不存在一个能完全满足我们需求的终端。随着无处不在的终端及应用所收集的数据越来越多,将来有一天,无论你去哪儿,都会留下“脚印”。我们接收到的数据会越来越全——这是令人兴奋的消息,但从伦理道德的角度来看,却可能是很危险的。
我们应该清楚地认识到,商业的基础正是因为众多终端(包括物联网)所带来的全域大数据而发生了改变。全域大数据带来的变革不限于数据本身,而是从全新的角度去思考社会和商业模式将如何被改变。在全域大数据的大潮之下,每家公司都要学会重新思考。当互联网的场景从单一的桌面转移到多源多终端,形成每时每刻的全域数据时,不仅带来了丰富的空间维度,还增加了更多从前匪夷所思的新场景所产生的数据。这么多零散数据和维度叠加在一起,那么接下来的难题就是:如何保证数据能有效地被存储、刷新、识辨和链接,然后灵活地被使用?
有这么多的数据能做什么?从古至今,每当人们遇到麻烦和困难时,都会从自己或别人的经验中寻找解决办法,然后决策执行。不论成功或失败,所得到的经验和积累会成为衡量下一个类同决策的基础。这样的决策循环往复,使我们的预测能力越来越接近真实,而数据就像是我们这个循环之中的瞄准镜一样。
开启“上帝视角”,做到知觉合一
知是Sensing,觉是Knowing,知是觉的基础,新知新觉!
以前,当一些结果不在我们的预期判断之中时,我们就会明白,原因是我们知道的信息不全。但这种现象在未来会越来越少,因为全域大数据会让我们更“见多识广”。
数据分析 实例
你每天开车回公司的途中到了某个路口习惯性左拐是最快捷的选择,但偶然有一天你发现,很多同事都在同一路口右拐。好奇心让你询问了多位同事,最后才发现原来有一条路比你原来的左拐选择更加便捷。在这个例子中,你有沒有注意到,个人智慧与集体智慧的融合体现得淋漓尽致,同时也暴露出过去我们获取信息的意愿或方法的条件的不充分。
再举例一个购物的场景。顾客A在朋友的推荐下搜索某品牌护肤品,被引导去了社交网站并了解到产品的品碑不错,接着去品牌官网查询商品价格,但嫌价格太贵;然后去了B2C网站,可是又觉得物流太慢;顾客A还未下定决心购买时,又到了下班时间;于是,当顾客A偶然路过专卖店时,才最终产生了购买行为。这是个常见的购物过程,我们可以理解顾客A想要购买一个产品经历的诸多流程。如果现在把你放在B2C网站负责人的位置上,你发现顾客A浏览了你的网站,但你并不知道她其实已经经历了前面的种种流程,更不知道之后的情况,所以你获得的只是一个很片面的数据。如果你是这款化妆品专卖店的负责人,也不要太过高兴,你不过是比B2C的负责人好运一点儿。顾客每天都在和你擦肩而过,你要有多少运气才够用啊。
在以上例子中,单独了解每个环节的数据可能结果都是片面的,但如果每个环节的数据都可以打通的话,你就会开启“上帝视角”,发现一个“完整的故事”——只不过今天还没有人能够做到数据完整。数理想的状况是,我们能够像蜘蛛网一样把数据深入到各个环节,这样才可以即时响应很多用户的想法。这种多场景、多终端、多应用的全域大数据将会是一个里程碑。
随着移动互联网时代的到来,不在预期之内的大数据不断地进入我们的视野,人类对周边环境的感知(sense)能力伴随着传感器数据的加强,开始发挥极大的作用。这些都造就了今天的人工智能的发展进入新纪元。明白了以上的前提后,我们就会更明白大数据整合和分享的重要性,以及不要唯利是图地胡乱买卖数据的重要性。
我们眼前的数据相对离散,终端和传感器(例如智能电视、智能家居、智能汽车等)的变化多端,这些都导致我们所讨论的全域大数据越来越像庞然大物:我们每秒钟收集的数据比前一秒更庞大,结构和标准也各不相同。例如,我们用的手机终端有苹果手机、安卓手机、黑莓手机等,而安卓系统下面还有小米、魅族、华为、三星等,不同型号的手机数据都会对数据的准确性产生影响。在我看来,开启“上帝视角”是未来趋势,上帝视角下的应用场景会越来越多地出现。对于我这样一个从事数据科学的人来说,这无疑是令人激动的。
这些数据都可以沉淀,复杂的数据环境给我们带来巨大挑战,但同时又伴随着前所未有的机遇。在机会面前,目前来说,我们还不够明智,还只是“各自为政”。
首先,每家公司、每个参与数据处理的“参赛者”,都想独自画出“数据链”路上的全景图。我就曾经看过同一家公司内各事业部都在做自己的软件开发工具包(SDK)来做数据收集,他们没有分工、也没有讨论标准化,所得数据之乱可想而知。
其次,我们忽略了数据一体性。如果我们现在不重视数据的一体性,之后想要利用好数据的时候,就会发现自己已经被这些微小数据牢牢卡住了。的确,当公司规模生态还很小时,你会觉得这些数据影响不大。传统上,我们对多元化、多终端异构数据的产生,以及数据的质量问题等,往往不够重视,但一旦我们想要实现突破,想精准地应用数据,就会发现曾经的“差一点儿”已经成了云泥之别。对数据使用的高手来说,数据质量就是生命之源。
知是Sensing,觉是Knowing,知是觉的基础,新知新觉!
数据化思考
样本的偏见
假设你想买一款新手机,于是去询问3位朋友的建议——到底是买iPhone,还是买三星。如果我们把这种经历当作一次抽样调查的话,我确定,它绝对不可能告诉你真实的结果。
我们在做抽样调查的时候,样本往往从一开始就有最常见的“偏见”——谁愿意反馈我的问卷,谁的建议就被反映在调查结果中;而不愿意给我反馈的人,他的意见就不会反映在调查结果里。有趣的是,被我们忽视了的那些没有反馈的样本,很多时候却是我们最需要知道的结果。
比如,今天淘宝做了一项调查,问:“你爱淘宝吗?”在收到1万份回复为“爱”时,我们的调研报告就得出了“大家都爱淘宝”这一结论。但事实上,我们总共发出了10万个样本,这一结果说明有9万个样本对这个调查保持了沉默。此外,我们在做调研时,会向被调查者赠送礼物,有些人是因为收到了礼物才觉得应该“说点好话”。在了解到这样的情况后,你还会轻易得出“大家都爱淘宝”的结论吗?所以,当我们分析一份数据的时候,一定要问自己:“样本的背后有什么是我们不知道的。”
我们经常会看到易观、Comscore、艾瑞等机构公布某一事物的调研数据。在看到这样的数据时,我常会问,他们的样本是怎么挑选的?据我所知,他们有一个第三方监控软件,它会以每月数百元的费用“购买”样本,并把监控软件置于后台。试想,如果你想做一个高端样本的调研,那么这种做法可行的可能性很小,就算有可能,结果也不会准确。因为他们即使出每月1 500元的资金也无法获取准确的数据。缘由显而易见,让月薪为5万元以上的用户把软件放在后台,然后监测自己每天做了什么,他们自然不会答应。所以说,在这种取样结果中,注定有一部分数据缺失而最终导致结果不正确。
在现实生活中,我们往往不会去想采样的问题,这就造成我们对很多调查结果深信不疑,我们的决策就会有对号入座的嫌疑,而这种嫌疑非常常见。比如,某人告诉你说他身边的很多朋友也是天秤座,这是因为他心里能想到的朋友很多都是天秤座,事实上其他他未能想到的人也可能是别的星座。再举两个现实中的例子,解释一下样本的偏见。比如,某人说他开了2 000次的汽车从没有出现过意外。今天,他喝酒了,但那2 000次里并没有酒后驾驶的样本,所以2 000次这个数据在今天是没有参考意义的,因为它并不能证明他喝完酒之后还能安全驾驶。而如果这2 000次中有200次喝了3瓶多白酒,而且喝完之后开了50公里回家的经历,那么,这2 000个样本就有参考性了。
样本数量是否足够与平衡的问题,是另一个常见的“偏见”。某杂志对用户们偏爱的手机操作系统做了一项调研,结论是现实中的人更多地在使用安卓系统。但是,这本杂志的读者群主要是IT界人士——这个取样一开始就存在偏见,而抽样又是来自读者群,再加上IT界人士本身也比较倾向于接受安卓系统,所以样本的不平衡就造成了结论的失真。
另外一个影响样本的因素是时间。阿里有一个360度调查用于反馈员工对部门的评价。如果我想拿高分,我会在调研前请大家吃饭,给大家培训……我做好所有调查中出现的项目。你要相信,短时记忆力是十分强大的,这就是一个典型的时间样本。这样的抽样是典型的“似是而非”。那么,假如想消除时间因素对结果的干扰怎么办?其实很简单,你只要随便抽取一天来询问员工:“你的部门好吗?”这往往才会得出有价值的答案。
此外,偏见还会因为我们抽样时的询问方式出现。这里有一个很好的例子,亚马逊的调研就很让人信服,它的问卷第一句话就是:“你的亲戚好友里,有没有亚马逊员工?”如果你回答“是”,那么很可能你的意见就不会在这份样本结果里出现。亚马逊的员工、亲友和普通亚马逊消费者的观念是很可能存在差异的。亚马逊的问法,使得调研出的数据更加精确,让有“偏见”的样本也存在了意义,因为它能区分双方的用户层次有多少不一样。
在调研过程中,如果这个样本在你调研前就是有目的的,那么这份有偏见的数据也是有价值的,比如可以通过交叉信息来验证结果是否准确。这在我们身边很常见,比如,你问三个朋友,我是买iPhone还是三星。但首先你得问:“你用的是什么手机?”如果他买了iPhone,却推荐三星,你就要追问为什么了。
同样,我现在去询问淘宝“小二”:“你会选择在哪里购物?”他们熟悉淘宝,肯定会受到影响。而如果对“小二”们调研,结果显示更多人愿意去京东、当当购买商品时,这就证明京东和当当确实不错——起码就某些类别来说是不错的。此时,有偏见的样本对企业仍然存在价值。
值得注意的是,样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得。