网络世界中有自由选择权吗?看互联网巨头们为引流做出的改变

网络世界中有自由选择权吗?看互联网巨头们为引流做出的改变

第四章 “你”的循环

最为人类的行为往往是最不可预测的。

算法归纳会导致一种信息决定论,在这种决定论中,我们过去的点击流完全决定了我们的未来。换句话说,我们如果不删除我们的网页历史,就可能注定要重复它们。

组成过滤泡的统计模型将异常值消去了。但在人类生活中,正是那些局外事物使事情变得有趣并给我们灵感。而这些异常值是变化的第一个信号。

我相信,这是对个人电脑本质的追求[1]——为了捕捉一个人的一生。

——戈登·贝尔(Gordon Bell)

“你只有一个身份[2],”脸书的创始人马克·扎克伯格在他的《脸书效应》(The Facebook Effect)一书中告诉记者戴维·柯克帕特里克(David Kirkpatrick),“你的工作伙伴、你的同事以及你认识的其他人对你有不同印象的日子,很可能很快就要结束了……拥有两个身份是缺乏诚信的表现。”

就在这本书出版的一年后,26岁的扎克伯格和柯克帕特里克以及美国全国公共广播电台(NPR)记者盖伊·拉兹(Guy Raz)在加州山景城的计算机历史博物馆里登上舞台。“在戴维的书中,”拉兹说,“你说人们应该只有一个身份……但其实我与家人相处的行为方式和我与同事相处的方式是不同的[3]。”

扎克伯格耸耸肩:“不,我想那只是我说过的一句话。”

拉兹继续问道:“现在的你和跟朋友在一起的你,是同样的表现吗?”

“嗯,是的,”扎克伯格说,“同样尴尬的我[4]。”

如果马克·扎克伯格是一个标准的25岁左右的青年人,那么这种观点的纠结可能是意料之中的:我们中的大多数人不会花太多时间从哲学的角度思考身份的本质。但扎克伯格控制着世界上最强大、最广泛使用的技术,这个技术用来管理和表达我们自己。他对这个问题的看法正是他对公司和互联网愿景的核心。

脸书首席运营官谢里尔·桑德伯格在纽约广告周的一次活动上发表讲话预计,互联网将迅速发生变化。“人们不想要针对整个世界的东西,他们想要的东西是能够反映他们想要看到什么和想要了解什么的。”她说,并暗示着在未来的三到五年内这将成为常态[5]。脸书的目标是成为这一过程的中心,通过脸书这一独特平台,所有其他服务和网站可以整合你的个人和社交数据。你只有一个身份,那就是你的脸书身份,它会为你每一个经历增添光彩。

很难想象,与早期阶段相比,互联网会有更戏剧性的变化,在那时,身份的隐秘性构成了吸引力的一部分。在聊天室和在线论坛上,你的性别、种族、年龄和所在位置由你说了算,这些网络空间里的用户乐于享受这一媒介带来的重生。电子前沿基金会的创始人约翰·佩里·巴洛(John Perry Barlow)梦想着“创造一个没有种族、经济实力、军事力量或出生地所赋予的特权或偏见的世界[6]”。这给任何想要越界、探索、尝试不同角色的人带来了自由,看起来极具革命性。

然而,随着法律和商业逐渐跟上科技发展的步伐,匿名上网的空间正在萎缩。你不能让一个匿名的人对他的行为负责:匿名的客户犯了欺诈罪,匿名的评论者发动了“火爆论战”(flame wars),匿名的黑客制造了麻烦。要建立社会和资本主义所赖以建立的信任,你需要知道你在与谁打交道。

因此,数十家公司正致力于网络的去匿名化(de-anonymizing)。由RateMyProfessors.com创始人创建的PeekYou网络人员搜索引擎公司正在申请一些专利,这些专利有助于把以虚假名字完成的在线活动与相关人员的真实姓名联系起来[7]。另一家公司Phorm帮助互联网服务提供商使用一种叫作“深度数据包检查”(deep packet inspection)的方法来分析它们服务器上的流量。Phorm旨在建立近乎全面的每个客户的概况,用于广告和个性化服务。如果互联网服务提供商仍心怀顾虑,BlueCava正在为世界上的每一台电脑、智能手机和在线设备建立一个数据库,这个数据库可以与使用它们的个人联系起来[8]。换句话说,即使你在网页浏览器中使用最高级别的隐私设置,你的硬件也可能很快会泄露你的信息。

这些技术的发展为一种比我们迄今所经历的任何事情都更加持久的个性化服务铺平了道路。这也意味着,我们将日益被迫信任处于这一过程中心的公司,以便恰当地表达和综合展示我们的真实身份。当你在酒吧或公园遇到某人时,你会观察他们的行为举止,并据此形成印象。脸书和其他身份识别服务旨在在互联网上充当好这一中介角色。如果它们做得不对,事情就会变得模糊和扭曲。要使个性化服务运作良好,你必须对什么能代表一个人有正确的认识。

身份和个性化服务之间的相互作用还有另一种紧张关系。大多数个性化过滤器基于三步走的模型。首先,你要弄清楚人们是谁,以及他们喜欢什么。其次,你要向他们提供最适合他们的内容和服务。最后,你要努力调整使得这种匹配恰如其分。你的身份塑造了你的媒体。这种逻辑只有一个缺陷:媒体也塑造了身份。因此,这些服务最终可能会通过改变“你”以使你和你的媒体之间实现良好契合。如果自我实现的预言是对世界的一种错误定义,而这种错误的定义通过一个人的行为变成了现实,那么我们现在就处于自我实现的边缘,在这种自我实现中,互联网扭曲了我们的形象,将其作为我们的真正形象。

个性化过滤甚至会影响你选择自己命运的能力。信息法律理论家尤查·本科勒在被大量引用的《警笛和阿米什儿童》(Of Sirens and Amish Children)一文中,描述了更多样化的信息来源是如何让我们更自由的[9]。本科勒指出,自治是一个棘手的概念:要想获得自由,你不仅要能够做你想做的事,还要能知道什么是有可能做的事情。标题中的“阿米什儿童”是著名的威斯康星州诉尤德案(Wisconsin v.Yoder)的原告,他们的父母试图阻止他们上公立学校,以免他们接触现代生活。本科勒认为,[10]这对孩子们的自由构成了真正的威胁:不知道成为宇航员是可能的,就如同知道可以成为却被禁止成为宇航员一样。

当然,选择太多和选择太少一样也存在问题,你会发现自己被太多的选择压垮了,或者因为选择的悖论而畏首畏尾。但最基本的一点仍然是,过滤泡不仅仅反映了你的身份,它也展示了你有什么选择。在常春藤盟校就读的学生看到的是针对他们的招聘广告,而州立大学的学生却从来都不知道这些职位。专业科学家的个人信息可能包含一些业余爱好者从来都不知道的关于比赛的文章。通过展示一些可能性并排除其他可能性,过滤泡帮助你做决定。反过来,它也决定了你成为什么样的人。

关于“你”的不良理论

个性化过滤塑造身份的方式正一如既往地变得清晰,特别是因为我们大多数人仍然花费更多的时间来消费传统媒体而不是个性化的内容流。但是通过观察主要过滤器如何看待身份,预测这些变化可能会是什么样子的就变得有可能了。个性化过滤需要一种关于什么塑造了人、什么样的数据对确定一个人是谁最重要的理论,而互联网行业中的主要玩家在处理这个问题的方式上有很大的不同。

例如,谷歌的过滤系统严重依赖网页历史记录和你点击的内容(点击信号)来推断你的喜恶。这些点击通常发生在完全私密的环境中:前提假设是对“肠气”和名人八卦网站的搜索仅发生在你和你的浏览器之间。但是你如果认为别人会看到你的搜索结果,就可能会有不同的表现。但正是这种行为决定了你在谷歌新闻中看到的内容以及谷歌展示的广告,换句话说,这决定了谷歌关于“你”的理论。

谷歌里呈现的“我”和脸书里呈现的“我”是非常不同的人。“你点击什么,你就是什么”和“你分享什么,你就是什么”之间有很大的区别。

脸书个性化服务的基础完全不同。毫无疑问,脸书会追踪点击量,但它主要通过查看你分享的内容和互动的对象来思考你的身份。这与谷歌提供的数据截然不同:我们点击的内容中有很多趣味低级的、虚荣和令人尴尬的东西,我们不愿在状态更新中与所有的朋友分享这些内容。反之亦然。我不得不承认,有时我会分享一些我几乎没读过的链接,比如关于海地重建的长篇调查文章、大胆的政治标题,因为我喜欢它们让我在别人眼中形成的形象。换句话说,谷歌里呈现的“我”和脸书里呈现的“我”是非常不同的人。“你点击什么,你就是什么”和“你分享什么,你就是什么”之间有很大的区别。

两种思维方式都各有优缺点。有了谷歌的基于点击的自我,还没有向父母表态的同性恋青少年仍然可以获取个性化的谷歌新闻,这些新闻可以让其从更广泛的同性恋群体中获取信息并肯定自己并不孤单。但同样的道理,一个建立在点击上的自我会更倾向于把我们引向我们已经倾向于看到的东西——我们最巴甫洛夫式的自我。你在TMZ名人八卦网上读到的一篇文章已经存档,下次你再看新闻的时候,布拉德·皮特(Brad Pitt)的婚姻剧更有可能出现在屏幕上(如果谷歌没有持续淡化色情内容,那么问题大概会严重得多)[11]。

脸书基于分享的自我则更有雄心抱负:脸书更重视你说的话,呈现出你想让别人看到的样子。你的脸书自我更像是一种表演,而不是一个行为主义的黑盒子,并且最终它可能比谷歌轨道上的一束信号更贴近社会。但脸书的做法也有其不利之处,在某种程度上,脸书利用的是更公开的自我,它必然没有更多的私人利益和担忧空间。在脸书上,同样一个不公开性取向的同性恋青少年的信息环境可能会与真实自我产生更大的差异。脸书上的肖像画仍然是不完整的。

两者都是对“我们是谁”的很糟糕的表现,部分是因为没有一组数据可以描述我们是谁。“关于我们的财产、职业、购买、财务状况和病史的信息并不能说明一切,”隐私专家丹尼尔·索罗夫(Daniel Solove)写道,“我们不仅仅是我们在生活中生产出来的数据。”

数字动画师和机器人工程师经常遇到一个被称为“恐怖谷”(uncanny valley)的问题。“恐怖谷”是指一个地方,它里面有一些东西非常生动逼真,但却不能令人信服地认为它是活物,让人感到毛骨悚然。这也部分解释了为什么真实人物的数字动画还未成气候。当一个图像看起来近乎真人但又不完全是真人的时候,它在基本的心理层面上是令人不安的。我们现在处于个性化服务的“恐怖谷”中。在我们的社交媒体中反映出来的分身自我很像我们自己,但实际上并不是我们自己。然后我们会看到,在数据和现实之间有一些重要的东西被忽略了。

首先,扎克伯格关于我们只有一个身份的说法是不正确的。心理学家给这种谬误起了个名字,叫作“基本归因错误”(fundamental attribution error)。我们倾向于把人们的行为归因于他们的内在品质和个性,而不是他们所处的情境。即使在情境起着明显重要作用的情况下,我们也很难将一个人的行为方式和她是谁(who she is)这两者区分开来[12]。

而且,我们的特性在很大程度上是易变的。在工作中咄咄逼人的人可能在家里很温顺。快乐时合群的人在压力下可能会变得内向。甚至我们一些非常隐秘的特征,比如我们不愿伤害他人,也可以通过情境来塑造。20世纪60年代,耶鲁大学具有开创性影响的心理学家斯坦利·米尔格拉姆(Stanley Milgram)的一项经常被引用的实验证明了这一点。当时,穿着实验服的主试点头示意后,体面的普通市民们服从指示对其他被试实施了电击[13]。

我们这样做是有原因的。在我们与家人共进晚餐时对我们有益的性格特质,可能会在我们与火车上的乘客发生争执时或试图在工作中完成一份报告时对我们有所妨碍。如果我们总是以完全相同的方式行事,自我的可塑性[14]将允许不可能的或无法忍受的社会环境的存在。广告主很早之前就明白这一现象了。用行话来说,这就是所谓的“日间分离”(day-parting),而且这就是你早上开车上班时不会听到很多啤酒广告的原因。人们在早上8点和晚上8点有不同的需求和愿望。出于同样的原因,夜生活区内的广告牌推销的产品与同一批人归家所往的住宅区的广告牌是不一样的。

在扎克伯格的脸书主页上,“透明性”在他的“点赞”名单中位居前列。但是,完美的透明性有一个缺点:隐私最重要的用途之一是管理和维护我们不同的自我之间的分离和区别。只有一个身份的话,你就失去了能实现更好的个性化契合的细微差别。

个性化服务并不能在你的工作自我和你的游戏自我之间取得平衡,并且它还会扰乱你的抱负自我和你当前的自我之间的紧张关系。我们的行为是我们的未来和当下自我之间的平衡。在未来,我们想要变得健康,但在现在,我们想要糖果棒。在未来,我们想成为一个全面发展、见多识广的大师,但现在我们想看《泽西玩咖日记》(Jersey Shore)。行为经济学家称之为“现时偏向”(present bias),即你对未来自我的偏好与当下此刻的偏好之间的差距。

这个现象解释了为什么在你的网飞队列上有那么多电影。当哈佛大学和分析研究所(the Analyst Institute)的研究人员研究人们的电影出租模式时,他们看到人们的未来抱负与他们当前的愿望背道而驰[15]。“应该看的”电影(“should”movie)如《难以忽视的真相》(An Inconvenient Truth)或《辛德勒的名单》(Schindler's List)经常被列入观看队列里,而观众去追捧“想要看的”电影(“want”movie)如《西雅图夜未眠》(Sleepless in Seattle)[16]时,“应该看的”影片却被冷落了。当他们不得不选择三部电影时,他们就不太可能选择“应该看的”电影了。显然总有一些电影我们会一直留到明天再看。

在最好的情况下,媒体有助于减轻“现时偏向”,将“应该阅读的”报道与“想要阅读的”报道结合起来,鼓励我们深入挖掘难于理解但颇有益处的复杂问题。但过滤泡的作用却恰恰相反:因为正是我们当下的自我在进行所有的点击行为,它所反映的这些偏好必然更偏向于“想要”而非“应该”。

“单一身份”问题并不是一个根本性的缺陷。这更像是一个程序错误:因为扎克伯格认为你只有一个身份而你并非如此,脸书在个性化过滤你的信息环境方面会做得更糟糕。正如约翰·巴特尔告诉我的那样,“我们如此远离人类存在意义的细微差别[17],而后者反映在技术的细微差别上”。给到足够多的数据和程序员,情境问题是可以得到解决的。根据个性化算法工程师乔纳森·麦菲的说法,谷歌正在着手解决这个问题[18]。我们已经看到钟摆从早期互联网的匿名特性摆到了目前流行的“单一身份”观点,而未来可能看起来像介于两者之间的某种东西。

但是,“单一身份”问题表明了将你最私人的信息交给那些对身份有偏见看法的公司的危险之一。保持独立的身份空间是一种仪式,它帮助我们处理不同角色和社区的需求。当最终你的过滤泡里的所有东西看起来都差不多的时候,你就失去了一些东西。你的酒神式自我会在工作中敲门;晚上外出时,你的工作焦虑困扰着你。

而且,当我们意识到我们所做的每一件事都进入了一个永久的、普遍存在的在线记录时,另一个问题就出现了:我们所做的事情会影响我们所看到的东西以及公司对我们的看法,而且会产生一种“寒蝉效应”(chilling effect)。遗传隐私专家马克·罗思坦(Mark Rothstein)发现,由于遗传数据监管不严,愿意接受遗传基因检测的人数减少了。如果你拥有与帕金森病相关的基因就会受到歧视或被拒绝参保,那么跳过测试和回避这种“毒性资料”是必然结果[19]。

同样,当我们的在线行为被记录下来,并添加到公司用来做决定的记录中时,我们可能会决定在上网时更加谨慎。我们如果知道(甚至怀疑)购买《修正你的信用评分的101种方法》(101 Ways to Fix Your Credit Score)的人往往会得到额度较低的信用卡,就会避免购买这本书。“如果我们认为我们的言行都是公开的,”法学教授查尔斯·弗里德(Charles Fried)写道,“对反对意见或更有形的报复的恐惧可能会使我们无法做或无法说一些我们想做或说的事情。只有这样,我们才能确保我们这些言行只有我们自己知道。”正如谷歌专家锡瓦·瓦德亚纳森所指出的那样,“F.斯科特·菲茨杰拉德(F.Scott Fitzgerald)笔下神秘莫测的杰伊·盖茨比(Jay Gatsby)在今天是不可能存在的。杰伊·盖茨比的数字鬼魂[20]会跟着他,如影随形”。

从理论上讲,单一身份、语境模糊的问题并非没有解决的可能性。毫无疑问,个性化者在感知环境方面会做得更好。他们甚至可以更好地平衡长期利益和短期利益。但当他们这样做的时候,当他们能够准确地判断你的心理活动时,事情就变得更奇怪了。

瞄准你的弱点

如今,过滤泡的逻辑仍然相当初级:购买《钢铁侠》(Iron Man)DVD的人可能会购买《钢铁侠2》(Iron Man Ⅱ),喜欢烹饪书的人可能会对烹饪器具感兴趣。但对于斯坦福大学博士生、脸书顾问迪安·埃克尔斯(Dean Eckles)来说,这些简单的建议仅仅是个开始。埃克尔斯感兴趣的是手段,而不是目的。他并不关心你喜欢什么类型的产品,他关心的是哪些类型的观点可能会导致你选择其中一种产品而不是另一种产品。

埃克尔斯注意到,在购买产品时,比如数码相机,不同的人对不同的宣传语有不同的反应。专家或产品评论网站将为照相机提供担保,这样的事实会使一些人感到安心。另一些人则更喜欢最受欢迎的产品,或是省钱的交易,或是他们知道并信任的品牌。有些人喜欢被埃克尔斯称为“高认知”的观点[21],即需要一些思考才能得到的、聪明的、微妙的观点。另一些人则对从天而降的简单信息反应更强烈。

并且,虽然我们大多数人有自己喜欢的辩论和验证风格,但也有一些类型的论点让我们感到厌烦。有些人仓促成交,另一些人则认为,这笔交易意味着商品的质量是平均水平以下的。埃克尔斯发现,只要消除那些让人感到不舒服的说服方式,他就能将营销材料的有效性提高三到四成[22]。

虽然很难在产品中实现“类别跳跃”(jump categories),你喜欢的衣服和你喜欢的书只有一点点关系,但是,“说服特征分析”(persuasion profiling)的理论表明,你所回应的那些观点是可以在不同领域之间高度转移的。如果一个人对百慕大旅行的“如果你现在购买的话,可以享20%的折扣”的优惠信息有所回应,那么他比对此优惠信息没有反应的人更有可能对类似的交易(比如一台新笔记本电脑的折扣信息)有所反应。

如果埃克尔斯判断正确(并且目前为止的研究似乎验证了他的理论),那么对你的“说服特征分析”将会有相当大的经济价值。知道如何在特定领域向你推销产品是一回事,能够在任何地方提高命中率是另一回事。像亚马逊这样的公司一旦通过提供不同类型的交易来了解你的个人信息,并且看到你的回应是什么,就没有理由不把这些信息卖给其他公司(这个领域太新了,尚不清楚说服风格与人口统计学特征之间是否存在相关性,但显然这也可能是一条捷径)。

埃克尔斯相信,“说服特征分析”可以带来很多好处。他提到,飞利浦(Philips)开发的可穿戴训练装置DirectLife可以找出哪些观点能说服人们吃得更健康,锻炼得更有规律。但是他告诉我,他也被一些可能性困扰。知道哪些信息会吸引特定的人有所回应,你就有能力在个人层面的基础上操纵他们。

有了“情感分析”的新方法,现在就可以猜测一个人的心情了。人们在情绪高涨的时候会使用更多积极的词语;对你的短信、脸书帖子和电子邮件进行足够的分析,就可以区分好日子和坏日子,区分清醒的信息和醉酒的信息(首先是大量的拼写错误)。最好的情况是,这可以用来提供适合你心情的内容:不久的将来,在一个糟糕的日子里,潘多拉可能在你到达之前就为你提前*载下**好了九寸钉乐队的《非常讨人厌的机器》(Pretty Hate Machine)这张专辑。但它同样可以利用你的心理状态来做的事。

举例来说,如果知道一些特定的顾客在有压力或自我感觉不好,甚至微醺的时候会强迫自己去买东西,考虑一下这些影响。如果“说服特征分析”能够使训练器对喜欢积极肯定的人喊出“你能做到”,那么理论上它也能使政客们针对每个选民的特定恐惧和弱点发表意见。

电视购物节目在半夜里*放播**,不只是因为这个播出时间便宜。在凌晨,大多数人特别容易受到暗示力量的影响。他们会为那些在白天永远不会购买的切片机而雀跃。但是凌晨三点规则是一个粗略的规则,大概是指,这段时间是我们日常生活*特中**别倾向于购买摆在我们面前的东西的时候。提供同样的个性化内容的数据也可以用来帮助营销者发现你的个人弱点并进而操纵你。而且这并不是一种假设的可能性:隐私研究人员帕姆·狄克逊(Pam Dixon)发现,一家名为“PK List Management”的数据公司提供了一份名为“对我免费——冲动购物的买家”的客户列表,这些名单里的人被认为极易受到抽*券奖**式宣传语的影响[23]。

如果个性化说服适用于产品,那么对创意也同样有效。毫无疑问,有一些时间、地点和辩论风格使我们更容易相信别人告诉我们的东西。潜意识信息传递是非法的,因为我们认识到有些论证方式本质上具有欺骗性。用潜意识的闪词广告(flashed words)来吸引人们,向他们推销东西是不公平的。但很难想象,当政治竞选活动设法回避我们更合理的诉求时这些活动会对选民产生怎样的影响。

我们凭直觉了解揭示我们深层动机和欲望的力量以及我们工作的方式,这就是为什么我们大多数人在日常生活中只和我们真正信任的人一起做这些事。它有一种对称性:你就像你的朋友了解你一样地了解你的朋友。与此同时,“说服特征分析”却可以在无形中完成,你根本不需要知道这些数据是从你那里收集的,因此它是不对称的。而且不同于某些形式的显眼的剖析(如网飞),“说服特征分析”当被揭露时是有缺陷的。这不同于听到一位自动运作的教练说:“你干得很棒!我这样告诉你是因为你会对鼓励式话语反应良好!”

所以你不一定会看到“说服特征分析”是如何起作用的。你不会看到它正被用来影响你的行为。我们提供这些数据给这些公司,这些公司没有法律义务对这些数据进行保密。在错误的人手中,“说服特征分析”让这些公司能够绕过你的理性决策,挖掘你的心理,引出你的冲动。了解一个人的身份,你就能更好地影响他的行为。

一条又深又窄的小径

谷歌副总裁玛丽萨·迈耶(Marissa Mayer)说,公司希望在不久的将来就能淘汰搜索框。“搜索引擎的下一阶段发展就是将其自动化。”埃里克·施密特在2010年说,“当我走在街上时,我想让我的智能手机不停地搜索[24]——‘你知道吗?’‘你知道吗?’‘你知道吗?’你知道吗?”换句话说,你的手机应该在你搜索之前先弄清楚你想搜索什么。

在即将到来的不需要搜索引擎来进行搜索的时代,身份驱动着媒体。但这些人物角色还没有完全解决一个同时存在的事实:媒体也会塑造身份。政治学家仙托·延加(Shanto Iyengar)称其中的主要因素之一为可获得性偏见(accessibility bias),并在1982年发表的一篇题为《电视新闻“不那么微小”的后果的实验演示》(Experimental Demonstrations of the“Not-So-Minimal”Consequences of Television News)[25]的论文中,证明了这种偏见是多么强大。在6天的时间里,延加要求纽黑文的居民们观看一个电视新闻节目的几个片段,他在每一组人的新闻片段里都掺杂了不同的内容。

之后,延加要求受试者对污染、通货膨胀和国防等问题的重要性进行排名。延加写道,在研究开始之前他们填写了调查问卷,而在观看之后,调查问卷的结果却发生了戏剧性的变化:“接触到有关国防或污染的源源不断的新闻后,参与者开始相信国防或污染[26]才是更重要的问题。”在观看了有关污染的新闻节目片段的小组中,这个问题的重要性排序从六个问题中的第五名上升到了第二名。

德鲁·韦斯特恩(Drew Westen)是一位专注于政治说服的神经心理学家,他通过让一群人记住包括月亮和海洋在内的一系列词汇来证明这种激发效应(priming effect)的力量。[27]几分钟后,他改变了话题并询问他们喜欢哪种洗涤剂。该组人举手表明他们对汰渍(Tide)[28]有着强烈的偏好,尽管韦斯特恩并没有提及这个词。

激发效应并不是媒体塑造我们身份的唯一方式。我们本身也更倾向于相信我们之前所听到的。在哈斯尔(Hasher)和戈尔茨坦(Goldstein)1977年的一项研究中,[29]参与者被要求阅读60条陈述性内容,并标记它们是对的还是错的。所有的声明都是可信的,但其中一些(包括“法国号角球员因现金奖励留在*队军**”)是正确的,其他的(包括“离婚只在技术先进的社会中出现”)则不是。两周后,受试者返回并对第二批陈述性内容进行评定,其中第一批陈述性内容中的一些项目在第二次实验中重复出现了。到第三次实验时,也就是两周后,受试者更容易相信重复的陈述性内容。消费信息和消费食物一样,它们都塑造了我们。

所有这些都是基本的心理机制。但把它们与个性化媒体结合起来,麻烦的事情就开始发生了。你的身份塑造了你的媒体,然后你的媒体塑造了你的信仰和你所关心的内容。你点击一个链接,表示你对某件事感兴趣,这意味着你以后更有可能看到关于这个话题的文章,这反过来也会让你对这个话题更感兴趣。你被困在一个“你”的循环中,而且如果你的身份被误传,奇怪的模式就会开始出现,就像放大器里的混响。

你如果是脸书用户,就可能遇到过这个问题。你查了查你大学时代的女朋友莎莉,有点好奇,想看看这些年来她在忙些什么。脸书把这解释为你对莎莉感兴趣的信号,突然之间,她的生活就出现在你的新闻源上。你还是有点好奇,所以你点击她发布的关于孩子、丈夫和宠物的新照片,证实了脸书的直觉。从脸书的角度来看,你似乎和这个人有关系,即使你们之间已经很多年没有交流了。之后的几个月里,莎莉的生活远比你们实际的关系更重要。她是“局部最大值”(local maximum)用户:虽然你对其他人的帖子更感兴趣,但你看到的就是她的近况。

在某种程度上,这种反馈效应是脸书早期员工、风险投资家马特·科勒(Matt Cohler)所说的“局部最大值问题”造成的。科勒被广泛认为是硅谷社交网络领域最聪明的思想家之一。

他向我解释,“局部最大值问题”在你试图优化某些东西的任何时候都会出现。比如说你想写一套简单的指令来帮助一个在内华达山脉(Sierra Nevadas)迷路的盲人找到通往最高峰的路。你会说:“感受下你四周,看看周围是否被地势较低的地方包围[30]。如果没有,那就朝地势更高的方向前进,然后重复这个动作。”

程序员总是面临这样的问题。搜索关键词“鱼”的时候,什么链接才是最佳结果?脸书向你展示哪些图片可以让你更有可能开始疯狂拍照?方向听起来很明显,你只需稍稍调整或转向一个又一个方向,直到你找到最佳位置。但是这些“爬山”的指示有一个问题:它们可能会把你带到山脚下(局部最大值问题),因为它们会指引你到达惠特尼山[31]的顶峰。

这并不是完全有害的,但是在过滤泡中,同样的现象也会发生在任何一个人或话题上。我发现,不去点击关于小工具的文章是一件难事,尽管实际上我并不认为它们有那么重要。个性化过滤器迎合了你身上最具强迫性的部分,创造了“强迫性媒体”(compulsive media)来让你点击更多的东西。这项技术基本上无法区分强迫性欲望和大众兴趣,并且,如果你生成的页面浏览量可以卖给广告主,它就可能不会在意这两者的区别。

系统学习与你有关的知识越快,你就越有可能陷入一种身份级联(identity cascade)中。在这种情况下,一个小的初始动作——你点击一个关于园艺、无政府状态或重金属摇滚歌手奥兹·奥斯布恩(Ozzy Osbourne)的链接,就会表明你是一个喜欢这些东西的人。这反过来又为你提供了关于这些主题的更多信息,你更倾向于点击阅读这些主题的信息,因为这些主题现在已经为你准备好了。

特别是,一旦第二次点击发生,你的大脑就会出现这种情况。我们的大脑以一种奇怪但令人信服的非逻辑方式来减少认知失调——“我如果不是一个做x的人,那么为什么要做x,因此我必须是一个做x的人。”在这个循环中,你的每次点击都是另一个自我证明的行为——“孩子,我想我真的很喜欢‘疯狂火车’(Crazy Train)。”科勒告诉我,当你用一个可以自我演绎的递归过程时,“你最终会走上一条又深又窄的路。”混响淹没了主音调。如果身份循环没有通过随机性和意外发现来抵消,那么你最终可能会被困在身份的脚下,远离远处的高峰。

这是这些循环相对良性的时候。有时它们并非如此。

我们知道当老师认为学生很笨时会发生什么:他们变得更笨。在伦理学委员会出现之前进行的一项实验中,老师们得到了一份被认为可以反映他们班上学生的智商和能力的测验成绩。然而,他们并没有被告知这些成绩是在学生中随机分配的[32]。一年后,那些被告知很聪明的学生的智商大幅提高。被告知低于平均水平的学生则没有这样的进步。

那么,当互联网认为你很笨时会发生什么呢?基于感知智商的个性化服务并非遥不可及,谷歌文档甚至提供了一个有用的工具,这个工具可以自动检查书面文本的级别。如果你的教育水平还不足以使你通过安客诚之类的工具评定,那么任何人只要接触过几封电子邮件或脸书帖子,就很容易推断出你的学历水平。那些写作水平表明是大学水平的用户可能会看到更多来自《纽约客》的文章,拥有更基本写作技能的用户可能会从《纽约邮报》(New York Post)看到更多新闻消息。

在广播世界中,每个人都被认为可以阅读或处理相同级别的信息。在过滤泡中,不需要这样的期望。从某种程度上来说,这可能是好事,因为认知水平不足以阅读报纸从而放弃阅读的那一大群人,可能最终要与书面内容联系在一起。但是,如果没有压力去促使他们改善,他们就很有可能长期停留在三年级的水平。

意外与冒险

在某些情况下,让算法来决定我们可以看到什么以及我们可以得到什么机会,会给我们带来更公平的结果。计算机可以对种族和性别视而不见,这是人类通常无法做到的。但这只是在相关算法被小心谨慎地设计的情况下。否则,它们很可能只是简单地反映了它们正在整合处理的文化的社会习俗——一种对社会规范的回归。

在某些情况下,基于个人数据的算法排序甚至可能比人类的判断更具有歧视性。例如,帮助公司筛选人才简历的软件可以通过查看推荐的员工中哪些被真正聘用了来进行“学习”。如果连续选出9名白人候选人,算法就可能认为公司对雇用黑人不感兴趣并将他们排除在未来的搜索之外。纽约大学的社会学家多尔顿·康利(Dalton Conley)写道:“在很多方面,这种基于网络的分类[33]比基于种族、阶级、性别、宗教或其他人口特征的陈腐的分类更具潜在危险。”在程序员圈子中,这种错误是有名称的,它被称为“过度拟合”(overfitting)。

在线电影租赁网站网飞采用了一种叫作“影媒”(CineMatch)的算法。首先,很简单,比方说,如果我租了《指环王》(Lord of the Rings)三部曲中的第一部,网飞可以查一下观看《指环王》的其他人租了什么电影。如果他们中有很多人租过《星球大战》(Star wars),那么网飞会认为我很可能也想租《星球大战》这部电影。

这种逻辑被称为kNN(k-nearest-neighbor)算法。通过使用这种技术,影媒算法根据用户租过的电影和他们给看过的电影打的星级评分(总分为五颗星),可以很好地弄清楚人们想看什么电影。2006年,影媒已经比大多数人更擅长做推荐了,它可以在一颗星的范围内预测一个给定的用户对网飞的10万部电影的喜爱程度。一个人类录像员从来不会想过给《绿野仙踪》(The Wizard of Oz)的粉丝们推荐《沉默的羔羊》(Silence of the Lambs),但影媒知道这两部电影有大量重叠的粉丝群。

但网飞首席执行官里德·黑斯廷斯(Reed Hastings)并不满足于此。他在2006年告诉一名记者:“如果用车子来打比方,我们现在开的则是福特最早期的T型车[34]。”2006年10月2日,一则公告出现在网飞的网站上:“我们愿意为我们感兴趣的项目付出共计100万美元的奖金。”网飞从用户数据库中提取并发布了大量的数据评论、租赁记录和其他信息,删除了任何能明显识别特定用户的信息。现在,只要有人或团队能胜过影媒算法一成,公司就愿意付100万美元奖励。和英国的“经度大奖”(longitude prize)类似,网飞挑战赛(Netflix Challenge)也向所有人开放。黑斯廷斯在《纽约时报》上宣称:“你所需要的只是一台个人电脑和一些伟大的洞察力[35]。”

9个月后,来自150多个国家和地区的约18000个团队,运用了机器学习、神经网络、协作过滤和数据挖掘的思想,竞逐这项大奖。通常来说,高风险比赛中的参赛者都是秘密进行研究的。但网飞鼓励竞争对手之间相互交流,并建立了一个留言板,在那里他们可以协调解决共同的障碍。通读留言板,你会真切地感受到在为更好的算法而奋斗的三年里参赛者们都面临着怎样的挑战。过度拟合的问题反复出现。

构建“模式查找”的算法有两个挑战。一个问题是找到所有干扰因素中存在的模式。另一个问题则恰恰相反,如果模式不存在就不要在数据里硬挖。描述“1、2、3”的模式可以是“将一个数字加到前面的数字”或者“从最小到最大”。“除非你得到更多的数据,否则你无法确定。”你如果妄下结论,那么就过度拟合了。

在电影方面,过度拟合的危险性相对较小,许多模拟电影(analog movie)的观众被引导相信这一点:因为他们喜欢《教父》(The Godfather)和《教父2》(The Godfather:Part Ⅱ),所以他们也会喜欢《教父3》(The Godfather:Part Ⅲ)。但过度拟合问题涉及过滤泡核心的、不能简化的问题:过度拟合和刻板印象是同义词。

“刻板印象”(stereotyping)这个词(顺便提一句,在这个意义上,这个词来自沃尔特·李普曼)经常被用来指那些不正确的恶意仇外模式,“这种肤色的人不那么聪明”是一个典型的例子。但是刻板印象和由此产生的负面影响对特定的人是不公平的,即使它们通常来说是相当准确的。

市场营销人员已经在探索“什么可预测”和“什么预测是公平的”之间的灰色地带。根据行为定位领域的老手查利·斯特赖克(Charlie Stryker)在社交图谱峰会(the Social Graph Summit)上所说,美国陆军非常成功地使用了社交图谱数据[36]为*队军**开展招募工作。毕竟,你如果有6个脸书好友已经应征入伍,就很可能也会考虑这样做。根据喜欢你的人或和你有联系的人所做的事情来推断结论是一桩很好的买卖。这不仅仅局限于*队军**。银行开始使用社交数据来决定向谁提供*款贷**:如果你的朋友不按时还款,那么你很有可能也会赖账。“你朋友的信用度[37]将用来决定你的信用度。”斯特赖克说。“这项技术的应用是非常强大的,”另一位社交定位企业家告诉《华尔街日报》,“谁知道我们能走多远?”这种算法的问题之一是,公司不需要解释自己做出这些决定的依据是什么。因此,你会在不知情以及不可上诉的情况下被评判。例如,社交求职网站领英(LinkedIn)提供了预测职业轨迹的服务——通过将你的简历与你所在领域的其他人进行比较,领英可以预测你5年后的位置。该公司的工程师们希望,他们很快就能找到能带来更好结果的职业选择——“像你一样的毕业于沃顿商学院的中层IT专家比非沃顿商学院出身的每年要多赚25000美金。”

作为一项提供给客户的服务,它非常有用。但想象一下,如果领英将这些数据提供给企业客户,帮助他们淘汰那些被认为是输家的人。因为在你完全不知情的情况下,这是可能发生的,你永远都不会有机会去争辩去证明这个预测是错误的,并对自己进行无罪推定。

如果银行因为你的高中同学不按时支付账单或者你喜欢很多拖欠*款贷**的人也喜欢的东西而歧视你,这看起来就很不公平。嗯,的确如此。它指出了归纳法即算法利用数据进行预测这一逻辑方法的一个基本问题。

早在计算机出现之前,哲学家们就一直在研究这个问题。尽管你可以从基本原理中论证数学证明的真实性,但哲学家大卫·休谟(David Hume)在1772年指出现实并非如此[38]。正如投资界的陈词滥调所言,过去的表现并不预示未来的结果。

这给科学提出了一些大问题,科学的核心是利用数据预测未来。卡尔·波普尔(Karl Popper)是著名的科学哲学家之一,正如我们所知,他一生的使命就是解决归纳法的问题。虽然19世纪末的乐观主义思想家们研究了科学的历史,看到了通往真理的道路,但波普尔更倾向于把注意力集中在路边被遗弃的谬论上。大量失败的理论和想法与科学方法完全一致,但却大错特错。毕竟,托勒密的宇宙,以地球为中心,太阳和行星围绕着它旋转,经受了大量的数学审查和科学观察。

波普尔从一个稍微不同的角度提出他的问题:仅仅因为你只见过白天鹅,并不意味着所有的天鹅都是白天鹅。你要找的是黑天鹅,提供反例,才能证明这个理论是错误的。波普尔认为,“可证伪性”是寻找真理的关键。对于波普尔来说,科学的目的[39]是推进人们无法找到任何反例、任何黑天鹅的最大主张。波普尔观点的本质是对科学诱导的知识的一种深深的谦卑——认为我们总是错的,就像我们是对的一样,并且我们通常不知道自己什么时候是对的。

很多算法预测方法都没有建立在这种谦卑的基础上。当然,它们偶尔会遇到不符合模型的人或行为,但这些异常不会从根本上破坏它们的算法。毕竟,用金钱来驱动这些系统的广告主并不需要这些模式有多完美,它们最感兴趣的是人口统计数据,而不是复杂的人类。

组成过滤泡的统计模型将异常值消去了。但在人类生活中,正是那些局外事物使事情变得有趣并给我们灵感。而这些异常值是变化的第一个信号。

当你对天气进行建模并预测有70%的概率下雨时,它并不会影响雨云。不下雨就是不下雨。但当你预测,因为我的朋友不值得信任,所以我有70%的机会拖欠*款贷**时,如果你弄错了,后果将不堪设想。你在歧视我。

正如波普尔所指出的,避免过度拟合的最佳方法是尝试证明模型是错误的,并构建出能够进行无罪推定的算法。如果网飞给我看了一部浪漫喜剧,我喜欢它,它就会给我看另一部,并开始把我当成一个浪漫喜剧爱好者。但如果它想要很好地了解我到底是谁,它就应该不断地给我看像《银翼杀手》(Blade Runner)这样的电影,试图证明它是错误的,以此来检验这个假设。否则,我最终会被休·格兰特(Hugh Grant)和朱莉娅·罗伯茨(Julia Roberts)所主张的“局部最大值问题”困扰。

组成过滤泡的统计模型将异常值消去了。但在人类生活中,正是那些局外事物使事情变得有趣并给我们灵感。而这些异常值是变化的第一个信号。

值得注意的是,对算法预测最好的批评之一来自19世纪晚期的俄国小说家陀思妥耶夫斯基(Fyodor Dostoyevsky)。他所写的《地下室手记》(Notes from Underground)是对当时乌托邦科学理性主义的激情批判。陀思妥耶夫斯基观察了被严格控制的、有序的人类生活,这是科学所承诺和预测的平庸未来。“所有人类的行为,”小说中未透露姓名的叙述者抱怨道,“接下来人类所有的言行,当然,根据这些定规被列成表格,就像极限是108000的对数表一样,输入指数……里面所有的一切都将被如此清晰地计算和解释,世界上将不会有更多的意外或冒险[40]。”

世界经常遵循可预测的规则,并落入可预测的模式:潮汐涨落,日月盈亏,甚至天气也越来越可以被预测。但当这种思维方式应用于人类行为时,它可能是危险的,原因很简单:我们最好的时刻往往是最不可预知的时刻。完全可预知的生活不值得过下去。但是,算法归纳会导致一种信息决定论,在这种决定论中,我们过去的点击流完全决定了我们的未来。换句话说,我们如果不删除我们的网页历史,就可能注定要重复它们。

注释:

[1]Sharon Gaudin, "Total Recall: Storing Every Life Memory in a Surrogate Brain, "ComputerWorld, Aug.2, 2008, accessed Dec.15, 2010, www.computerworld.com/s/article/9074439/Total_Recall_Storing_every_life_memory_in_a_surrogate_brain.

[2]David Kirkpatrick, The Facebook Effect: The Inside Story of the Company That Is Connecting the World (New York, Simon & Schuster, 2010), 199.

[3]Live-Blog: Zuckerberg and David Kirkpatrick on the Facebook Effect, "Social Beat, Transcript of interview, accessed Dec.15, 2010, http: //venturebeat.com/2010/07/21/live-blog-zuckerberg-and-david-kirkpatrick-on-the-facebook-effect.

[4]"Live-Blog: Zuckerberg and David Kirkpatrick on the Facebook Effect, "Social Beat, Transcript of interview, accessed Dec.15, 2010, http: //venturebeat.com/2010/07/21/live-blog-zuckerberg-and-david-kirkpatrick-on-the-facebook-effect.

[5]Marshall Kirkpatrick, "Facebook Exec: All Media Will Be Personalized in 3 to 5 Years, "ReadWriteWeb, Sept.29, 2010, accessed Dec.15, 2010, www.readwriteweb.com/archives/facebook_exec_all_media_will_be_personalized_in_3.php.

[6]ohn Perry Barlow, A Declaration of the Independence of Cyberspace, Feb.8, 1996, accessed Dec.15, 2010, https: //projects.eff.org/~barlow/Declaration-Final.html.

[7]Julia Angwin and Steve Stecklow, "‘Scrapers’ Dig Deep for Data on Web, "Wall Street Journal, Oct.12, 2010, accessed Dec.15, 2010, http: //online.wsj.com/article/SB10001424052748703358504575544381288117888.html.

[8]Julia Angwin and Jennifer Valentino-Devries, "Race Is On to ‘Fingerprint’ Phones, PCs, "The Wall Street Journal, Nov.30, 2010, accessed Jan.30, 2011, http: //online.wsj.com/article/SB10001424052748704679204575646704100959546.html?mod=ITP_pageone_0.

[9]Yochai Benkler, "Of Sirens and Amish Children: Autonomy, Information, and Law, "New York University Law Review, 76 N.Y.U.L.Rev.23, April 2001, 110.

[10]Yochai Benkler, "Siren Songs and Amish Children: Autonomy, Information, and Law, "New York University Law Review, April 2001.

[11]Daniel Solove, The Digital Person: Technology and Privacy in the Information Age (New York: New York University Press, 2004), 45.

[12]E.E.Jones and V.A.Harris, The Attribution of Attitudes, Journal of Experimental Social Psychology 3(1967): 1-24.

[13]Stanley Milgram, "Behavioral Study of Obedience, "Journal of Abnormal and Social Psychology 67(1963): 371-78.

[14]Paul Bloom, "First person plural, "Atla ̄ntic, Nov.2008, accessed Dec.15, 2010, www.theatlantic.com/magazine/archive/2008/ 11/first-person-plural/7055.

[15]Katherine L.Milkman, Todd Rogers, and Max H.Bazerman, "Highbrow Films Gather Dust: Time-Inconsistent Preferences and Online DVD Rentals, "Management Science 55, no.6(June 2009): 1047-59, accessed Jan.29, 2011, http: //opimweb.wharton.upenn.edu/documents/research/Highbrow.pdf.

[16]Katherine L.Milkman, Todd Rogers, and Max H.Bazerman, "Highbrow Films Gather Dust: Time-Inconsistent Preferences and Online DVD Rentals, "Management Science vol.55, no.6(June 2009): 1047-59, accessed Jan.29, 2011, http: //opimweb.wharton.upenn.edu/documents/research/Highbrow.pdf.

[17]John Battelle, phone interview with author, Oct.12, 2010.

[18]Jonathan McPhie, phone interview with author, Oct.13, 2010.

[19]Mark Rothstein, as quoted in Cynthia L.Hackerott, J.D., and Martha Pedrick, J.D., "Genetic Information Nondiscrimination Act Is a First Step;Won't Solve the Problem, "Oct.1, 2007, accessed Feb.9, www.metrocorpcounsel.com/current.php?artType=view&art Month=January&artYear=2011&EntryNo=7293.

[20]Siva Vaidyanathan, "Naked in the ‘Nonopticon, ’"Chronicle Review 54, no.23: B7.

[21]Dean Eckles, phone interview with author, Nov.9, 2010.

[22]Dean Eckles, phone interview with author, Nov.9, 2010.

[23]PK List Marketing, "Free to Me—Impulse Buyers, "accessed Jan.28, 2011, www.pklistmarketing.com/Data%20Cards/Opportunity%20Seekers%20&%20Sweepstakes%20Participants/Cards/Free%20To%20Me%20-%20Impulse%20Buyers.htm.

[24]Robert Andrews, "Google's Schmidt: Autonomous, Fast Search Is ‘Our New Definition, ’"paidContent, Sept.7, 2010, accessed Dec.15, 2010, http: //paidcontent.co.uk/article/419-googles-schmidt-autonomous-fast-search-is-our-new-definition.

[25]Shanto Iyengar, Mark D.Peters, and Donald R.Kinder, "Experimental Demonstrations of the ‘Not-So-Minimal’ Consequences of Television News Programs, "American Political Science Review 76, no.4(1982): 848-58.

[26]Shanto Iyengar, Mark D.Peters, and Donald R.Kinder, "Experimental Demonstrations of the ‘Not-So-Minimal’ Consequences of Television News Programs, "American Political Science Review 76, no.4(1982): 848-58.

[27]Drew Westen, The Political Brain: The Role of Emotion in Deciding the Fate of the Nation(Cambridge, MA: Perseus, 2007).

[28]汰渍的英文还有"潮汐"的含义。——译者注。

[29]Lynn Hasher and David Goldstein, "Frequency and the Conference of Referential Validity, "Journal of Verbal Learning and Verbal Behaviour 16(1977): 107-12.

[30]Matt Cohler, phone interview with author, Nov.23, 2010.

[31]惠特尼山属于内华达山脉,是美国本土48个州的最高峰。——译者注。

[32]Robert Rosenthal and Lenore Jacobson, "Teachers' Expectancies: Determinants of Pupils' IQ Gains, "Psychological Reports 19(1966): 115-18.

[33]Dalton Conley, Elsewhere, U.S.A.: How We Got from the Company Man, Family Dinners, and the Affluent Society to the Home Office, BlackBerry Moms, and Economic Anxiety(New York: Pantheon Books, 2008), 164.

[34]Geoff Duncan, "Netflix Offers $1Mln for Good Movie Picks, "Digital Trends, Oct.2, 2006, accessed Dec.15, 2010, www.digitaltrends.com/computing/netflix-offers-1-mln-for-good-movie-picks.

[35]Katie Hafner, "And If You Liked the Movie, a Netflix Contest May Reward You Handsomely, "New York Times, Oct.2, 2006, accessed Dec.15, 2010, www.nytimes.com/2006/10/02/technology/02netflix.html.

[36]Charlie Stryler, Marketing Panel at 2010 Social Graph Symposium, Microsoft Campus, Mountain View, CA, May 21, 2010.

[37]Julia Angwin, "Web's New Gold Mine, "Wall Street Journal, July 30, 2010, accessed on Feb.7, 2011, http: //online.wsj.com/article/SB10001424052748703940904575395073512989404.html.

[38]David Hume, An Enquiry Concerning Human Understanding, Harvard Classics Volume 37, online edition, (P.F.Collier & Son: 1910), Section VII, Part I, accessed Feb.7, 2011, http: //18th.eserver.org/hume-enquiry.html.

[39]Karl Popper, The Logic of Scientific Discovery (New York: Routledge, 1992).

[40]Fyodor Dostoevsky, Notes from Underground, trans.Richard Pevear and Laura Volokhonsky(New York: Random House, 1994), 24.