大数据时代的数据获取方式的特点 (大数据推送的表象与实质)

大数据的目的是获得精准信息,大数据与传统数据的三个明显特征

大数据的意外收集数据的暗淡和消极意义

大数据有多大?

在讨论“大数据”时经常出现的一个问题是,多大才算“大”。在很大程度上,这是一个语义问题。一般来说,“大数据”指的是数据集太大,无法在一台计算机上操作或存储。这些数据的数量通常远远超出任何一个人甚至一群人的分析能力。例如,一个人可能要花几个星期的时间才能读完《三体》(大约6000 kb)。然而,这个文件可能是存储在消费者外置硬盘上的数百万个同样大的文件之一,几乎在任何电脑商店都可以买到(一个6TB的驱动器可以存储1,000,000份《三体》),这代表了任何一个人一生都无法阅读的文本量。从这个角度来看,牛津大学ARCUS-b系统是最新的“超级计算机”。

自2013年以来,认知与进化人类学研究所一直在使用该系统进行高级数据分析和模拟。这个系统,虽然令人印象深刻和有用,但并不能与许多现代云计算平台竞争,目前大约有1500TB的空间。

大数据的目的是获得精准信息,大数据与传统数据的三个明显特征

大数据的意外收集数据的暗淡和消极意义

目前,人类学领域有许多真正的“大数据”项目,如SESHAT数据档案,在某种程度上还有eHRAF数据库。这些数据库是由少数人制作的作品的档案,但尽管它们的规模和范围令人印象深刻,但大多数数据分析师并不认为它们是“大数据”。此外,这些聚合项目中的数据类型很少记录个人级别的数据点。因此,它们代表了巨大的档案资源,但并不一定涉及收集个人数据所面临的道德困境。

然而,一些研究人员利用企业与学术的合作伙伴关系,或者找到了从Facebook、Twitter和其他在线社交网络平台等网站获取数据的方法。其他研究人员利用智能手机和GPS跟踪设备等电子设备被动产生的数据进行研究。这可以通过访问他们的数据服务器来实现,但也可以通过“网络抓取”或*载下**和重组信息(如用户名、时间戳、帖子、回复、“赞”等)来实现。

大数据的目的是获得精准信息,大数据与传统数据的三个明显特征

大数据的意外收集数据的暗淡和消极意义

得到了什么?

原则上,大数据几乎可以是任何类型的数据;就人类学家而言,它是关于个人及其信仰和行为的数据。目前,大数据包括我们的信用卡记录、互联网使用情况、社交网络联系、电话记录甚至约会习惯。然而,当涉及到人类学家感兴趣的人类交流数据时,大数据可以提供关于个人的信息,他们与谁交流,说了什么。这不仅为数据分析提供了框架,还为数据重构提供了机会。这里我指的是使用数据集,以插值部分数据之间的关系,以重新创建从其中获得数据的底层社会网络。

大数据的目的是获得精准信息,大数据与传统数据的三个明显特征

大数据的意外收集数据的暗淡和消极意义

例如,在使用Facebook数据时,可以以机器可读的格式*载下**个人的实际社交网络(假设相关各方已经提供了适当的协议和同意)。然而,人们也可以利用网络蜘蛛来获取放在网站上的朋友列表和这个人的相关链接,然后让程序访问每个链接并*载下**每个人的朋友列表,然后依次为每个人*载下**朋友列表等等。这样的过程允许我们在没有任何个人实际同意的情况下,公开地重建社交网络的近似值。

大数据的目的是获得精准信息,大数据与传统数据的三个明显特征

大数据的意外收集数据的暗淡和消极意义

意外数据收集

数据保护的第二个问题现在出现了。具体来说,当我授予外部团体访问权限来收集我的数据时,这意味着他们也可以收集其他个人的信息。即使除了我自己之外,没有任何其他人的知情同意,情况也是如此。考虑到一个人在社交网络上可能有多少朋友,结果是,现在成为研究一部分的大多数“参与者”没有获得知情同意。

研究中经常出现的另一个问题是发现了意想不到的结果。通常情况下,科学研究是为特定目的而批准的,机密或识别数据是安全的。因此,通过研究这些数据所获得的使用和结果仅限于特定的预先指定的用途。然而,在大型数据集中,我们经常可以在数据中发现无意的模式。虽然许多这样的相关性或“重大结果”自然充其量是虚假的,但有些可能会产生巨大的影响。如果结果在统计意义上是显著的,并且对研究对象或参与者意味着更广泛的后果,那么它们的影响可能是有益的,也可能是有害的。例如,数据可能会揭示一种模式,如果信息落入坏人之手,可能会危及参与者,就好像它们要揭示一个人作为社会运动关键的具体重要性,这样社会运动的反对者就可以针对这个人。

大数据的目的是获得精准信息,大数据与传统数据的三个明显特征

大数据的意外收集数据的暗淡和消极意义

上述信息可能会让人觉得非常暗淡和消极,就好像利用电子数据,人类学家就顺从于奥威尔式的反乌托邦。我向你保证,情况不必如此。相反,我个人非常看好大数据的研究前景。这主要是因为人类学家经常提出关于人类社会性的重大问题,以及是什么以非常有趣的方式将人类与生物世界的大部分区别开来。要回答这些大问题,我们可以利用大数据,通过统计推断和数据分析来获得更好的理解。我们还可以利用这些信息和数据来提出关于人类社会性的进一步问题,以及不同文化中的个体如何表现相似或独特。

在某种程度上,大数据克服了人类学中经验主义学派所知道的抽样和概括问题。然而,我们不应该认为它提出的问题是依赖大样本量的人类学方法所特有的。如上所述,深入的定性数据是人类学中更多定性方法的标志,在大数据的世界中也可能被滥用。

大数据的目的是获得精准信息,大数据与传统数据的三个明显特征

大数据的意外收集数据的暗淡和消极意义

参考文献

Schoen, S., Hofmann, M., and Reynolds, R. (2011). Defending Privacy at the U.S. Border: A Guide for Travelers Carrying Digital Devices. Retrieved from https://www.eff.org/files/eff- border-search_2.pdf

Siegel, E. (2013). Predictive Analytics: the Power to Predict Who Will Click, Buy, Lie, or Die.

Hoboken, NJ: Wiley and Sons.

Timmer, J. (2015, January). Behind the Great Firewall: using my laptop and phone in China. Ars Technica. Retrieved from http://arstechnica.com/staff/2015/01/personal-computing-behind- the-great-firewall/

Turchin, P., Whitehouse, H., Francois, P., Slingerland, E., and Collard, M. (2012). A Historical Database of Sociocultural Evolution. Cliodynamics: The Journal of Theoretical and Mathematical History, 3(2), 271–293. Retrieved from http://www.escholarship.org/uc/item/2v8119hf

Waber, B. N., Olgu, D., Kim, T., Mohan, A., Ara, K., and Pentland, A. S. (2007). Organizational Engineering using Sociometric Badges. Cambridge, MA. Retrieved from http://ssrn.com/abstract=1073342 or http://dx.doi.org/10.2139/ssrn.1073342

Waksman, A., and Sethumadhavan, S. (2011). Silencing Hardware Backdoors. In Proceedings of the IEEE Symposium on Security and Privacy (pp. 49–63). Washington, D.C.: IEEE Computer Society. doi:10.1109/SP.2011.27