关于作者
维克托.迈尔.舍恩伯格
被誉为 “大数据时代的预言家”,他是早洞见大数据时代发展趋势的数据科学家之一。现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。
他是备受众多世界知名企业信赖的信息与顾问。他的咨询客户包括微软、惠普和IBM等全球著名企业。他也是众多机构和国家政府高层的信息政策智囊。他一直专注于信息安全与信息政策与战略的研究,是欧盟专家之一,也是世界经济论坛、马歇尔计划基金会等重要机构的咨询顾问,同时他以大数据的全球视野,熟悉亚洲信息产业的发展与战略布局,先后担任新加坡商务部高层、文莱国防部高层、科威特商务部高层、迪拜及中东政府高层的咨询顾问。
他的学术成果斐然,有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上,他同时也是哈佛大学出版社、麻省理工出版社、通信政策期刊、美国社会学期刊等多家出版机构的特约评论员。
肯尼斯.库克耶
《经济学人》数据编辑,曾任职于《华尔街日报》(亚洲版)和《国际先驱论坛报》。他是美国外交关系协会成员,CNN、BBC和NPR的定期商业和技术评论员之一。
关于本书
《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托.迈尔.舍恩伯格被誉为“大数据商业应用第1人”,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。作者在本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。维克托最具洞见之处在于,他明确指出,大数据时代大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。认为大数据的核心就是预测。大数据将为人类的生活创造可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、IBM、苹果、facebook、twitter、VISA等大数据先锋们具价值的应用案例。
核心内容
大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉。本文从四个方面来展示大数据是如何引发这场思维、商业和管理变革的:一、大数据时代的数据处理逻辑是什么?二、大数据时代的数据化是如何变革商业、市场和社会本质的?三、大数据时代给社会带来什么样的负面影响?四、大数据时代我们需要重塑什么样的管理规范?
前言
随着计算机技术全面融入社会生活,信息爆炸已经积以累到了一个开始引发变革的程度。以天文学为例,2000年斯隆数字巡天项目启动时,位于新墨西哥州的望远镜在几周内收集的数据已经比天文学历史上总共收集的数据还要多,到2010年,信息档案已经高达1.4*242字节。不过预计2016年在智利投入使用的大型视场全景巡天望远镜能在五天之内就获得同样多的信息。类似的行业还有基因学,信息总量的变化导致信息形态的变化,这些行业首先创造了大数据的概念,后面逐渐应用到几乎所有的行业中。这时对大数据处理有三个方面的要求:一是大数据量已经超出了一般计算机处理时内存,需要新的处理技术和工具,如MapReduce和Hadoop;二是传统的结构化数据库已经不能满足需求,新技术和工具要能对非结构化的数据进行支持;三是大数据价值的挖掘与应用。本书中指出大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。它不仅是人们获得新的认知、创造新的价值的源泉;还是改变市场、组织机构,及政府与公民关系的方法。
先举个例子,看大数据是如何变革公共卫生行业的。2009年出现一种新的流感病毒甲型H1N1,其传播速度非常之快。全球的公共卫生机构都担心一场致命的流行病即将来袭。甚至有的评论家预测其规模可能类似于1918年西班牙爆发的夺走千万人性命的大流感,更糟糕的是,还没有研发出对搞这种新型流感病毒的疫苗。美国和所有其他国家一样,都是要求医生发现病例后告知疾病控制与预防中心,疾控中心每周进行数据汇总,但面对飞速传播的疾病,这种做法显然不济于事。在H1N1流感爆发前几周,谷歌在《自然》杂志上发表一篇论文,其解释了谷歌能够预测冬季流感的传播,不仅是全美范围的传播,且可以具体到特定的地区和州。那谷歌是怎么做到的呢?原来他们是通过观察人们在网上的搜索记录来完迈个预测的,因为谷歌保存了多年业所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,这些数据足以支撑和帮助它完成这件工作。谷歌工程师在处理4.5亿个不同的数据模型后,发现45条检索 词条组合,将它们用于一个特定的数学模型后,预测流感与官方数据的相关性高达97%,所以他们能判断流感是从哪是传播出来的,而且判断非常及时。通过谷歌的搜索大数据,建立了一个更有效、更及时的指示标,让公共卫生机构能提前预测流感的发生并做好预防。
数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。利用大数据思维,就可以激发大量的新产品和新型服务。
第一部分
先来看第一个问题,大数据时代的数据处理逻辑是什么?书中指出大数据时代我们处理和分析数据发生三个转变:
第一个转变是利用所有的数据,而不是仅仅依靠一小部分采样数据。为什么不再依赖采样数据呢?因为随机采样是小数据时代一条捷径,是在不可收集和分析全部数据的情况下的选择,其本质就是用最少的数据得到最多的信息。但随着高性能数字技术的进步,我们有了简单廉价的数据收集方法,有足够的数据处理和存储能力,也具备最先进的数据分析技术,所以全数据模式,样本=总体,这样可以给我们带来更高的精确性,也能够提高微观层面分析的准确性。
第二个转变是乐于接受数据的纷繁复杂,而不再追求精确性。我们可以分析更为繁杂的数据,面对海量的数据时,绝对的精准不再是我们追求的主要目标,适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。一是因为大数据的简单算法比小数据的复杂算法更有效;二是大数据能带来的商业利益远远超过增加一点精确性,所以一般不会投入更大成本去提升数据的精确性。
第三个转变是不再探求难以捉摸的因果关系,转而关注事物的相关关系。更好的分析工具和思路为我们提供一系列新的视野和有用的预测,帮助我们掌握以前无法理解的复杂技术和社会动态。通过去探求”是什么“而不是”为什么“,相关关系帮助我们更好地了解这个世界。
第二部分
在解释第二个问题前,我们先了解数据从哪里来?作者在书中列举了莫里中校把脏乱的航海日志绘制成表格数据,最后提供了更精确的航海路线。以及前言中列举的谷歌工程师通过检测用户检索数据来预测流感记录一样。数据往往有时候就是从最不可能的地方提取出来,再转化成可以用数值量化的数据模型。那我们经常耳熟能详的数字化和数据化有什么区别吗?作者说数字化和数据化有本质上的不同。数字化指的是把模拟数据转换成用0和1表示的二进制码。而数据化是把对某件事物的描述转变为可制表分析的量化形式的过程。是计量和记录一起促成了数据的诞生,它们是数据化最早的根基。数字化带来了数据化,但是数字化无法取代数据化。有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的,是可以理解的数据的海洋。这样为我们提供了一个从未有过的审视现实的视角,它是一种可以渗透到所有生活领域的世界观。
大数据时代,所有数据都是有价值的。数据的价值是其所有可能用途的总各,这些似乎无限的*在用潜**途就像是选择,这里不是指金融工具意义上的选择,而是实际意义上的选择。这些选择的总和就是数据的价值,即数据的潜在价值。书中列举了数据的潜在价值释放的三种方式:数据再利用、数据重组和可扩展数据。
我们先来看看数据再利用:亚马逊早期与AOL达成一项协议,为AOL电子商务网站提供后台技术服务。在大多数人眼里,这只是一个普通 的外包协议,而亚马逊真正的用意在于掌握用户的数据:他们在看什么、买什么。这些数据帮助亚马逊提高它的推荐引擎性能。而AOL没有意识到这点,只看到了销售这个基本用途所带来的收益,聪明的亚马逊去知道如何从二次利用中获利。
同样通过一个实例来看一下数据重组,丹麦癌症协会将1990年-2007年间拥有手机的用户数据和这个时间段内的10729名中枢神经系统肿瘤患者的数据结合,试图寻找两者之间的关系,手机用户是否比非手机用户显示出较高的癌症发病率?使用手机较长的用户是否比时间较短的 用户更容易患上癌症?虽然最后的研究结果没有发现使用手机和癌症风险增加之间存在任何关系,但这次的数据重组研究却具有非凡的意义。随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
什么是可扩展数据呢?作者指出要促成数据再利用的方法之一就是一开始就设计好它的可扩展性。比如说零售商在店内安装监控摄像头,不仅能识别商店扒手,还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。
书中作者还提到了数据废气,其实就是用户行为数据,是指用户在与线上产品交互时的行为数据,包括浏览了哪些页面、停留了多久、点击了什么、输入了什么信息等等,利用这些数据能很好地改善产品的用户体验并创造用户价值。
上面主要是讨论怎样通过创新用途,挖掘出数据新的价值,即数据价值的潜在价值。那如何将数据使用融入大数据价值链中,它是如何变革商业、市场和社会本质的?首先大数据价值链三大构成:数据本身、技能和思维。三大构成则衍生出了三种类型的公司:第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或者提出数据创性用途的才能。比如说,沃尔玛和Pop-Tarts这两个零售商就是借助天睿公司的分析来获得营销点子,天睿就是一家大数据分析公司。第三种是基于思维的公司。皮特.华登,Jetpac的联合创始人,就是通过想法获得价值的一个例子,他通过用户分享到网上的旅行照片来为人们推荐下一次旅行目的地。对于某些公司来说,数据和技能并不是成功的关键。挖掘数据的新价值的创新思维才是这些公司脱颖而出的优势所在。
大数据成为许多公司竞争力的来源,未来可能整个行业的结构会发生改变,大公司和小公司最有可能成为赢家。如今的核心竞争力在于快速而廉价地进行大量的数据存储和处理。当然公司要根据自己的情况进行调整。大数据向小数据时代的赢家以及那些线下大公司(如沃尔玛、联邦快递、宝洁公司、雀巢公司、波音公司)提出了挑战。同时,大数据也为小公司带来了机遇。大数据也将会影响国家竞争力。当制造业已经大幅转向发展中国家,而大家都争相发展创新行业的时候,工业化国家因为掌握了数据以及大数据技术,所以仍然在全球竞争中占据优势,但这个优势很难持续。随着技术的发展,西方世界在大数据技术的优势将会慢慢消失。对于大公司而言,好消息是大数据技术可以加剧优胜劣汰。一旦公司掌握了大数据,它不但可能超过对手还可能遥遥领先。
第三部分
说完大数据变革商业、市场和社会本质,再看第三个问题,大数据时代给社会带来什么样的负面影响?书中提到了三个主要的负责影响:
第一个负面影响是加剧我们隐私的泄漏以及隐私被利用的风险。因为在移动互联网时代,监视变更容易且成本更低廉,电商平台监视我们的购物习惯、出行软件收集我们的行动轨迹、谷歌监测我们的浏览习惯、微信监视我们的社交关系网络等等。而大数据的价值潜力刺激很多别人用心的人或公司进一步采集、存储和循环利用我们个人隐私数据的野心。同样,在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都会失效。我们的隐私已经受到严重威胁。
第二个负面影响是大数据基于对个人未来行为的预测会严重威胁我们的自由意志。通过大数据预测,对我们的未来想法而非实际行为采取惩罚措施,这会否认我们的自由意志并伤害人类的尊严。进行个人罪责推定需要行为人选择某种特定的行为,他的选择是造成这个行为的原因。而大数据并不是建立在因果关系基础上的,所以它完全不应该用来帮助我们进行个个罪责推定。
第三个负面影响是数据独裁,由于大数据给我们带来非常大的价值,而受到这种价值的驱使 ,可能会把大数据运用到它不适用的领域,而且可能会过分膨胀对大数据分析结果的信赖。
任何事情都有它的两面性,只要合理的利用大数据,而不单纯只是为了数据而数据,大数据就会变成我们强大的*器武**。所以我们要杜绝对数据的过分依赖,不要让我们成为数据的奴隶。如何管理数据并让数据为我们所用呢,第四部分将带给我们答案。
第四部分
我们在生产和信息交流方式上的变革必然会引发自我管理规范的变革,而这些变革也会带动社会需要维护的核心价值观的转变。大数据时代在改变人类基本生活与思维方式的同时,也在推动人类信息管理准则的重新定位。作者指出,在大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险,需要全新制度规范。如何进行彻底的管理变革呢?
第一个管理措施是个人隐私保护,从个人许可到让数据使用者承担责任。就是说要着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。这样,使用数据的公司就需要基于其将对个人所造成的影响,对涉及个人数据再利用的行为进行正规评测。未来的隐私保护法应该区分用途,包括不需要或者只需要适当标准化保护的用途。对一些危险较大的项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或者减轻潜在伤害。
第二个管理措施是保证个人动因,确保政府对我们行为的评判是基于真实行为而非单纯依靠大数据分析。为了确保这个管理措施执行到位,需要坚持四个原则:一是公开原则,必须公开用来进行预测分析的数据和算法系统;二是公正原则,由具备 第三方专家公证的可靠、有效的算法系统 ;第三是可反驳原则,明确提出个人可以对期预测进行反驳的具体方式;第三是要确保个人动因能防范数据独裁的危害,我们赋予数据本身不具备的意义和价值。
第三个管理措施是催生大数据审计员或审计机构来监测数据的使用安全。基于大数据的预测、运算法则和数据库有变为黑盒子的风险,他们不透明、不可解释、不可追踪,为了防止这些情况出现,大数据需要被监测并保持透明度,所以这就需要有新型专业技术和机构来提供相关的支持。
第四个管理措施是通过反垄断法遏制数据垄断大亨。为了促进大数据平台上的良性竞争,政府必须运用反垄断法条例。
伴随着从核技术到生物工程学其他领域的发展,人类总是先创造出可能危害自身的工具,然后者着手建立保护自己、防范危险的安全机制。大数据领域也是一样,我们的任务是要意识到新技术的风险,促进其发展,然后斩获成果。
总结
以上就是《大数据时代》的全部内容。凡是过去,皆为序曲。大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。