眼下,数字化转型成为各行各业普遍关注的热点,从业者们都趋之若鹜,并逐渐演化出“数智化”等新口号。实际上剥开各种口号的光鲜外表,里面最核心的内容就是数据分析。
如果是在以前,大家讨论数据分析,大概不会有什么歧义。但是在今天大数据时代的背景下谈论数据分析,总会不由自主的与大数据分析相联系,两者纠缠不清。“名不正,则言不顺”,这两个概念扯不清,势必导致行业领域浑水摸鱼、张冠李戴等各种弊病。比如简单的价格对比网站可以叫“消费大数据平台”,又或者一个推荐菜谱的网站可以叫“饮食大数据平台”。各种平台商家打着大数据旗号,做些低端简单的操作。这种挂羊头卖狗肉做法,不仅会影响消费者体验更会扰乱市场秩序,影响大数据行业的健康发展。
所以,概念上区分数据分析与大数据分析是有必要的。但是我们该如何区分?这里有两个例子可以说明。一个是发生在1854年的英国,时值霍乱爆发,作为医生的*诺斯**,为查清病情缘由,开展了统计工作,认真记录每天的死亡人数和发病人数,并将这些人的地址一一标注在伦敦地图上,形成点地图。基于这些统计分析工作,他将病情源头追溯到一个叫宽街的地方,经过进一步的调查分析,最终确定宽街的公用水井是霍乱传播介质,最终帮助英国政府控制住了霍乱疫情。另一个则发生于2009年,在美国H1N1流感爆发几周之前,谷歌公司的工程师基于海量搜索数据分析,建立分析模型,成功预测了H1N1流感在美国全国范围的传播,甚至精确到具体的州和地区,此举震惊了公共卫生官员和计算机科学界的专家们。同样是发生在公共卫生领域,跨越两个个多世纪的案例对比,正反映出数据分析与大数据分析的种种区别。
首先,在从目的上,数据分析往往是为了验证假设,是基于一定数据内容,对已知现象或对象的分析验证。*诺斯**医生的数据统计分析,暗含的前提是通过分析病例传播,可以找到病源,从而解决问题。但大数据分析不同,其目的不是对已知内容的验证分析,而是对未知世界的探索、预测。这种预测探索不是命题作文,而是开放式作文。谷歌基于搜索的大数据分析,不仅可以用来预测禽流感,在分析人口流动、安全管理、交通出行等多方面都可以应用。
其次,从内容上,数据分析更多是基于特定主题的和特定范围的数据。最典型的是实验室数据分析,实验记录的大量数据,都是围绕实验目的、实验对象的数据内容。包括*诺斯**医生的统计,也都是病情相关数据。但是大数据分析则不然,谷歌的大数据分析,与其说是数,不如说是符号。其中涉及的有大量图片、文字等各式各样的符号记录。
最后,在方法上,数据分析更多是聚焦,大数据分析则突出泛化。传统的数据分析,在应用方法上有一个剥洋葱的过程,通过一定的模型,将数据层层过滤筛选,最后保留核心的高价值的数据。例如*诺斯**医生的分析过程,先找全部病人,再筛选相关的病人,再进一步分析活动轨迹。相比之下,大数据分析则是不断拓展数据范围,泛化一切关联数据。谷歌在预测禽流感的过程中,通过不断增加不同的数据内容,从搜索关键词,关联词,关联图片,发病数据等等,突破数据资源的时间空间限制,整合历史数据和当前数据,跨地域的数据等等。
数据分析与大数据分析不能等同,但这并不意味着二者截然相反,两者之间还是有着本质上的联系。包括在核心理念上二者都是追求对现象世界更精准、更深刻的认知;在工具支撑上,统计学相关的理论和方法仍是分析的基础,如方差、标准差、正态分布等各种分析工具,以及一些常见分析方法,如回归分析、聚类分析、线性拟合等等。从历史发展的角度来看,大数据分析是数据分析内涵随着时代发展和技术进度不断丰富的结果。它给人们认识和改造世界方式带来巨大甚至可是革命性的转变,主要体现以下三方面。
一是从对象数据化到数据对象化的转变。传统数据分析过程本质上是对象数据化的过程,是以对象为出发点,经过数据刻画分析,再回归对象,不断深化认知的过程。例如通过价格反映经济行为,最终解释经济行为形成理论。相比较而言,大数据分析数过程是数据对象化过程,是以数据为出发点,将数据本身作为分析认知的原点,通过分析发掘数据资源中蕴含的不同信息和价值,形成对对象的新认知同时也积累新数据。这是大数据分析体现出最为本质的转变。
二是从数据到符号转变。传统数据分析的主要内容都是数据,包括数学公式、统计数据、实验数据等各种数据,通过总量规模、占比关系、分布状态等数据刻画分析。大数据时代,分析对象从从数据上升为符号,通过符号的信息化,再经信息化实现数据化。它将语言文字、图片、音视频统统纳入其中,形成全面的、更高维度的对象认知。这种认知使得我们可以构建新的数字世界,拓展我们的生活空间。
三是从历史到未来的转变。传统数据分析大多以历史分析为主,以验证已有的假设、解释已有的现象。它依赖于先前的历史数据积累,才能进行分析,即使是实验室创新发明,也往往都是基于过去的历史数据分析结果。相比之下大数据分析,借助信息化手段,日益呈现出实时动态的特点,大多是对未来趋势的预测分析、是对未知领域的探索。
尽管在很多从业者看来,数据分析和大数据分析其实没有多大的区别,只是名字上多了一个字,工作内容上相差无几;但是对于大量的不明真相的吃瓜群众,需要擦亮双眼,不要被“大数据+”、“智能+”等气势如虹的口号迷惑,要看到里面内在本质,在大数据时代,做一名懂行的专业观众!