利用大数据找商机 (充分运用大数据)

利用大数据找商机,利用大数据做事

04 全域大数据，大数据的颠覆者

大概三五年前，我们还在为移动化兴奋不已；而今天，我们已经开始面对全域大数据、面对来自四面八方的传感器。大数据已经完全不是“移动化”这么简单了。

数据，决策的瞄准镜

随着无处不在的终端及应用所收集的数据越来越多，将来有一天，无论你去哪儿，都会留下“脚印”。全域大数据带来的变革不限于数据本身，而是从全新的角度去思考社会和商业模式将如何被改变。

在移动化的初始阶段，我们觉得手机是一个结合了媒体、沟通、互联应用的超级终端传感器。渐渐地我们发现，离开手机一会儿就觉得不自在，而从数据收集的角度来说也出现了一个新挑战：PC端和手机移动端这两个终端上出现的是否为同一个人？这个现象引发的问题在未来会变得更明显。在未来，除了用手机，智能电视、智能家居、物联网汽车……我们将和所有的东西实现联结和互动，已经不存在一个能完全满足我们需求的终端。随着无处不在的终端及应用所收集的数据越来越多，将来有一天，无论你去哪儿，都会留下“脚印”。我们接收到的数据会越来越全——这是令人兴奋的消息，但从伦理道德的角度来看，却可能是很危险的。

我们应该清楚地认识到，商业的基础正是因为众多终端（包括物联网）所带来的全域大数据而发生了改变。全域大数据带来的变革不限于数据本身，而是从全新的角度去思考社会和商业模式将如何被改变。在全域大数据的大潮之下，每家公司都要学会重新思考。当互联网的场景从单一的桌面转移到多源多终端，形成每时每刻的全域数据时，不仅带来了丰富的空间维度，还增加了更多从前匪夷所思的新场景所产生的数据。这么多零散数据和维度叠加在一起，那么接下来的难题就是：如何保证数据能有效地被存储、刷新、识辨和链接，然后灵活地被使用？

有这么多的数据能做什么？从古至今，每当人们遇到麻烦和困难时，都会从自己或别人的经验中寻找解决办法，然后决策执行。不论成功或失败，所得到的经验和积累会成为衡量下一个类同决策的基础。这样的决策循环往复，使我们的预测能力越来越接近真实，而数据就像是我们这个循环之中的瞄准镜一样。

开启“上帝视角”，做到知觉合一

知是Sensing，觉是Knowing，知是觉的基础，新知新觉！

以前，当一些结果不在我们的预期判断之中时，我们就会明白，原因是我们知道的信息不全。但这种现象在未来会越来越少，因为全域大数据会让我们更“见多识广”。

数据分析实例

你每天开车回公司的途中到了某个路口习惯性左拐是最快捷的选择，但偶然有一天你发现，很多同事都在同一路口右拐。好奇心让你询问了多位同事，最后才发现原来有一条路比你原来的左拐选择更加便捷。在这个例子中，你有沒有注意到，个人智慧与集体智慧的融合体现得淋漓尽致，同时也暴露出过去我们获取信息的意愿或方法的条件的不充分。

再举例一个购物的场景。顾客A在朋友的推荐下搜索某品牌护肤品，被引导去了社交网站并了解到产品的品碑不错，接着去品牌官网查询商品价格，但嫌价格太贵；然后去了B2C网站，可是又觉得物流太慢；顾客A还未下定决心购买时，又到了下班时间；于是，当顾客A偶然路过专卖店时，才最终产生了购买行为。这是个常见的购物过程，我们可以理解顾客A想要购买一个产品经历的诸多流程。如果现在把你放在B2C网站负责人的位置上，你发现顾客A浏览了你的网站，但你并不知道她其实已经经历了前面的种种流程，更不知道之后的情况，所以你获得的只是一个很片面的数据。如果你是这款化妆品专卖店的负责人，也不要太过高兴，你不过是比B2C的负责人好运一点儿。顾客每天都在和你擦肩而过，你要有多少运气才够用啊。

在以上例子中，单独了解每个环节的数据可能结果都是片面的，但如果每个环节的数据都可以打通的话，你就会开启“上帝视角”，发现一个“完整的故事”——只不过今天还没有人能够做到数据完整。数理想的状况是，我们能够像蜘蛛网一样把数据深入到各个环节，这样才可以即时响应很多用户的想法。这种多场景、多终端、多应用的全域大数据将会是一个里程碑。

随着移动互联网时代的到来，不在预期之内的大数据不断地进入我们的视野，人类对周边环境的感知（sense）能力伴随着传感器数据的加强，开始发挥极大的作用。这些都造就了今天的人工智能的发展进入新纪元。明白了以上的前提后，我们就会更明白大数据整合和分享的重要性，以及不要唯利是图地胡乱买卖数据的重要性。

我们眼前的数据相对离散，终端和传感器（例如智能电视、智能家居、智能汽车等）的变化多端，这些都导致我们所讨论的全域大数据越来越像庞然大物：我们每秒钟收集的数据比前一秒更庞大，结构和标准也各不相同。例如，我们用的手机终端有苹果手机、安卓手机、黑莓手机等，而安卓系统下面还有小米、魅族、华为、三星等，不同型号的手机数据都会对数据的准确性产生影响。在我看来，开启“上帝视角”是未来趋势，上帝视角下的应用场景会越来越多地出现。对于我这样一个从事数据科学的人来说，这无疑是令人激动的。

这些数据都可以沉淀，复杂的数据环境给我们带来巨大挑战，但同时又伴随着前所未有的机遇。在机会面前，目前来说，我们还不够明智，还只是“各自为政”。

首先，每家公司、每个参与数据处理的“参赛者”，都想独自画出“数据链”路上的全景图。我就曾经看过同一家公司内各事业部都在做自己的软件开发工具包（SDK）来做数据收集，他们没有分工、也没有讨论标准化，所得数据之乱可想而知。

其次，我们忽略了数据一体性。如果我们现在不重视数据的一体性，之后想要利用好数据的时候，就会发现自己已经被这些微小数据牢牢卡住了。的确，当公司规模生态还很小时，你会觉得这些数据影响不大。传统上，我们对多元化、多终端异构数据的产生，以及数据的质量问题等，往往不够重视，但一旦我们想要实现突破，想精准地应用数据，就会发现曾经的“差一点儿”已经成了云泥之别。对数据使用的高手来说，数据质量就是生命之源。

知是Sensing，觉是Knowing，知是觉的基础，新知新觉！

数据化思考

样本的偏见

假设你想买一款新手机，于是去询问3位朋友的建议——到底是买iPhone，还是买三星。如果我们把这种经历当作一次抽样调查的话，我确定，它绝对不可能告诉你真实的结果。

我们在做抽样调查的时候，样本往往从一开始就有最常见的“偏见”——谁愿意反馈我的问卷，谁的建议就被反映在调查结果中；而不愿意给我反馈的人，他的意见就不会反映在调查结果里。有趣的是，被我们忽视了的那些没有反馈的样本，很多时候却是我们最需要知道的结果。

比如，今天淘宝做了一项调查，问：“你爱淘宝吗？”在收到1万份回复为“爱”时，我们的调研报告就得出了“大家都爱淘宝”这一结论。但事实上，我们总共发出了10万个样本，这一结果说明有9万个样本对这个调查保持了沉默。此外，我们在做调研时，会向被调查者赠送礼物，有些人是因为收到了礼物才觉得应该“说点好话”。在了解到这样的情况后，你还会轻易得出“大家都爱淘宝”的结论吗？所以，当我们分析一份数据的时候，一定要问自己：“样本的背后有什么是我们不知道的。”

我们经常会看到易观、Comscore、艾瑞等机构公布某一事物的调研数据。在看到这样的数据时，我常会问，他们的样本是怎么挑选的？据我所知，他们有一个第三方监控软件，它会以每月数百元的费用“购买”样本，并把监控软件置于后台。试想，如果你想做一个高端样本的调研，那么这种做法可行的可能性很小，就算有可能，结果也不会准确。因为他们即使出每月1 500元的资金也无法获取准确的数据。缘由显而易见，让月薪为5万元以上的用户把软件放在后台，然后监测自己每天做了什么，他们自然不会答应。所以说，在这种取样结果中，注定有一部分数据缺失而最终导致结果不正确。

在现实生活中，我们往往不会去想采样的问题，这就造成我们对很多调查结果深信不疑，我们的决策就会有对号入座的嫌疑，而这种嫌疑非常常见。比如，某人告诉你说他身边的很多朋友也是天秤座，这是因为他心里能想到的朋友很多都是天秤座，事实上其他他未能想到的人也可能是别的星座。再举两个现实中的例子，解释一下样本的偏见。比如，某人说他开了2 000次的汽车从没有出现过意外。今天，他喝酒了，但那2 000次里并没有酒后驾驶的样本，所以2 000次这个数据在今天是没有参考意义的，因为它并不能证明他喝完酒之后还能安全驾驶。而如果这2 000次中有200次喝了3瓶多白酒，而且喝完之后开了50公里回家的经历，那么，这2 000个样本就有参考性了。

样本数量是否足够与平衡的问题，是另一个常见的“偏见”。某杂志对用户们偏爱的手机操作系统做了一项调研，结论是现实中的人更多地在使用安卓系统。但是，这本杂志的读者群主要是IT界人士——这个取样一开始就存在偏见，而抽样又是来自读者群，再加上IT界人士本身也比较倾向于接受安卓系统，所以样本的不平衡就造成了结论的失真。

另外一个影响样本的因素是时间。阿里有一个360度调查用于反馈员工对部门的评价。如果我想拿高分，我会在调研前请大家吃饭，给大家培训……我做好所有调查中出现的项目。你要相信，短时记忆力是十分强大的，这就是一个典型的时间样本。这样的抽样是典型的“似是而非”。那么，假如想消除时间因素对结果的干扰怎么办？其实很简单，你只要随便抽取一天来询问员工：“你的部门好吗？”这往往才会得出有价值的答案。

此外，偏见还会因为我们抽样时的询问方式出现。这里有一个很好的例子，亚马逊的调研就很让人信服，它的问卷第一句话就是：“你的亲戚好友里，有没有亚马逊员工？”如果你回答“是”，那么很可能你的意见就不会在这份样本结果里出现。亚马逊的员工、亲友和普通亚马逊消费者的观念是很可能存在差异的。亚马逊的问法，使得调研出的数据更加精确，让有“偏见”的样本也存在了意义，因为它能区分双方的用户层次有多少不一样。

在调研过程中，如果这个样本在你调研前就是有目的的，那么这份有偏见的数据也是有价值的，比如可以通过交叉信息来验证结果是否准确。这在我们身边很常见，比如，你问三个朋友，我是买iPhone还是三星。但首先你得问：“你用的是什么手机？”如果他买了iPhone，却推荐三星，你就要追问为什么了。

同样，我现在去询问淘宝“小二”：“你会选择在哪里购物？”他们熟悉淘宝，肯定会受到影响。而如果对“小二”们调研，结果显示更多人愿意去京东、当当购买商品时，这就证明京东和当当确实不错——起码就某些类别来说是不错的。此时，有偏见的样本对企业仍然存在价值。

值得注意的是，样本跟大数据不同。大数据相信全量数据，而非样本；是分析得出，而不是抽样获得。