在美剧《联邦调查局》中,FBI探员利用数据系统对嫌犯进行追踪,找到嫌犯住所及工作地点,成功解救被绑架儿童。而在现实生活中,美国联邦调查局拥有上万个这样的数据系统。不仅是FBI,美国中情局也是如此。
30年前,要想找出一个内鬼需要依靠探员的直觉,一种能觉察到异样的第六感。在有互联网、全球定位技术和谷歌以前,抓捕间谍要依靠文件线索、情报特工和秘密调查。桑迪·格兰姆斯曾亲身经历过这样的抓捕,但抓捕过程中出了一点意外,导致她的一位线人死亡。

桑迪表示,从事情报工作的人会跟那些同意跟美国政府合作的人产生一种私人关系,这些人把自己的性命交到情报工作者手里。因此,当一位由她负责的间谍在尼日利亚失踪后,她对此深感自责。该名间谍是一位苏联国家安全委员会(简称"克格勃")的官员。
桑迪两次尝试联系这名间谍,但是他一直没有出现。随后事实表明,他已经被捕了。他是苏联双料间谍名单上第一个被发现是为西方工作的间谍。桑迪说:"就这样,一个接一个,我们失去了这些人。而除了这样的方式外,我们别无他法。我们让他们失望了。"
特别调查小组
最大的谜团在于,跟美国中情局打交道的是内鬼还是莫斯科的破译者。如果当时有今天的分析技术的话,调查过程会有极大的提速。现代算法会搜集并累积中情局员工出现的位置,在他们的工作习惯之中找到可疑之处,追踪他们的活动轨迹。
但在20世纪80年代晚期,冷战即将结束之际,中情局能够依靠的只有像桑迪这样的经验丰富的情报工作专家。所以,1991年,美国中情局发起了一项名为Operation Playactor的调查,主要是由一个特别小组负责。该特别小组成员分别是桑迪、一位名叫丹·佩恩的年轻国土安全局雇员、中情局资深分析师珍妮·维特弗伊、两名FBI探员、特工吉姆·霍尔特和苏联情报分析师吉姆·米尔本。

桑迪·格兰姆斯
调查过程涉及到大量的电子表格、纸质文件和审讯。经过对所有的模拟工具进行了数月的仔细研究后,特别小组成功地将名单范围缩小到约150名中情局员工。但对于特别小组来说,150人还是个很大的数字,很难对这150人逐一进行调查。所以他们提出了一个不可思议的非科学解决方案,即让这150人写下5至6个在中情局中让他们感觉不对劲的人的名字,然后对其进行排名。
尽管有些名字在名单上多次出现,但对于桑迪来说,真正的嫌疑人只有一个人。她跟这个人相识多年,甚至还共享一辆车,并且他最近刚从海外的哨点回来。这个神秘的男人叫奥德里奇·埃姆斯。

作为美国中情局负责苏联反情报活动行动部门的成员之一,奥德里奇是美国历史中排名最高、最具危险性的间谍之一。桑迪对他的怀疑理由是任何算法都无法预测到的:他就是看起来很不一样。桑迪解释说:"1989年,当奥德里奇从意大利回来之后,他就像换了个人似的。他好像在清查自己的财产,还有一种之前没有的'我知道一些你不懂的事'的傲慢态度。"
为鱼编写的数据分析软件
差不多和特别小组调查内鬼的同一时间,数据科学家杰夫·乔纳斯在拉斯维加斯开始了自己的新工作。几个月前,杰夫接到一个来自迷吉拉*场赌**的电话,对方询问杰夫是否可以帮他们编写一个特别的软件,称有一些库存问题需要解决。这恰好是杰夫擅长的领域。然后他们告诉杰夫这个系统是为鱼建立的。
迷吉拉*场赌**刚开业就遇到了出人意料的问题:该*场赌**标志性的20000加仑(约75.7立方米)鱼缸开始成为一项巨大的经济耗费。鱼缸里有数千只昂贵的珍稀热带鱼。迷吉拉*场赌**每年花费近100万美元在鱼缸的维护上,还需要辗转寻找热带鱼的饲料。
杰夫最后编写出了一个我们现在认为是最早的数据分析系统的软件。他的软件不仅追踪鱼,而且还使得该*场赌**在如何为鱼缸进货上做出更好的决定。那时杰夫并不知道这个软件会成为自己的一生之作。杰夫的特长就是身份匹配。这一特长首先被运用到鱼的身上,然后再是人,但是对人的身份匹配比鱼要难许多。
杰夫帮助建立了鱼类匹配系统之后,*场赌**又开始问他能否帮忙对*场赌**的安全系统进行现代化升级。1990年代早期,维加斯的人类追踪最新技术实际上是一块3x5英寸的索引卡。杰夫回忆说:"当时他们为员工制作这样的卡,然后按名字对卡片排序,并且还有另一套针对同一批员工、按地址排序的卡。跟图书馆差不多是一个原理,不同的是,图书馆按照主题、题目、作者排序,这些卡按照姓名、地址和电话号码排序。"
杰夫首先把这些卡数字化,然后他建立了一个名为Non-Obvious Relationship Awareness(NORA)的系统。该系统会将*场赌**里那些和*场赌**雇员有着相同电话号码的客人进行标记。如果一个人进行了多个出生日期登记,该系统也会检测到。NORA正在建立一个系统来帮助人们意识到数据的重要性。

NORA系统注意到了一群坐在21点赌桌前的大学生,他们的牌运好得不可思议。尽管看起来他们并没有作弊,但那么多人同时牌运都这么好还是很奇怪的一件事。最终NORA确认这群年轻人在数牌——他们是麻省理工学院海盗旗队的成员。(数牌并不违法,但是通常数牌的人会被请出*场赌**。)
如果桑迪和中情局知道NORA的存在的话,也许这个系统可以用来帮助他们找出中情局的内鬼。
特别的模拟系统
桑迪当时有的是一个类似NORA系统的人工小队。除此以外,她跟奥德里奇还有过一段长期的私人接触。早在桑迪对奥德里奇有疑心之前,她就近距离的观察过奥德里奇的行为并且能判断出中情局特工的不寻常行为。桑迪表示,在那些他们共享一辆车的日子里,奥德里奇总是迟到,衣衫不整地从公寓里跑出来——他就是个糙汉。
另一个疑点来自奥德里奇的妻子罗莎丽奥。1988年,当她跟奥德里奇被派往意大利的哨点时,罗莎丽奥曾拜托一位中情局的同事给她寄一份产前维生素。之后,桑迪曾偶然碰到这位帮忙寄维生素的同事,这位同事戴着一条古驰(意大利时装品牌)围巾。桑迪问这位同事古驰围巾哪里来的,同事回答她说是罗莎丽奥在收到维生素后送她的。桑迪说:"这可真是份特别的礼物啊。"
单独来看,这些事都没有什么意义,但是桑迪脑子里的"NORA系统"在不停地运转,此时小组成员也在审讯其他嫌疑人。名单上的每个人,不论在名单上的排序如何,都被问到了同一个问题,即假如你要从事间谍活动或是志愿者活动,你会怎么做?多数人都把这个问题视为一种智力锻炼,只有奥德里奇对此表示困惑。桑迪说奥德里奇在回答这个问题时语无伦次。小组成员坐在审讯室里听着,随后他们发现这个问题让奥德里奇感到很不自在,这一点让他们感到震惊。
这成为特别小组为中情局计算机系统创造的模拟系统的数据点。年轻的FBI探员佩恩开始着手对奥德里奇的财务状况和银行账户申请搜查令。桑迪开始对奥德里奇的派遣任务按照时间进行梳理。她还添加了其他随机的数据点,如奥德里奇进出办公室的时间,奥德里奇打卡出门抽烟的时间。
桑迪把这些数据点都输入进她电脑的一个文字处理文档,而这也对她造成了一些困扰——每天早晨,桑迪登陆之后需要等待20分钟才能将其加载到上次处理的位置。她表示每天都令人沮丧,让人心烦意乱。

而要想这些文件最后能有用并且能被搜索,文件内容格式必须完全一致,不能前一天输入3月7号,第二天又输入03/07,也不能有任何的错别字和杂乱的空格。桑迪每天的工作最后都会回头去检查自己输入的内容,任何一点差池都将使文件发生天翻地覆的变化。
桑迪对细节的严格要求最终有了回报。一天早晨,佩恩拿着一个装满财务报表的信封走进办公室。他从信封中拿出一些存入单,然后开始往电脑里的电子表格添加信息。之后,按照他们的惯例,佩恩将单据传给小隔间另一边的桑迪,桑迪再按照时间顺序向下翻,找到匹配的日期,然后输入信息。
桑迪碰巧瞟了一眼单据,接着她发现,这笔资金存入的前一天,奥德里奇刚跟苏联驻华盛顿的外交官谢尔盖·楚瓦辛共进午餐。第二张单据显示奥德里奇在7月5日存入5000美元现金,而恰好在三天前,奥德里奇又跟谢尔盖一起吃了午饭。7月31日,又一笔8500美元进账,就在当天,奥德里奇再一次跟谢尔盖共进午餐。
桑迪随即下楼将这些发现报告给了中情局反情报部门的主管保罗·雷德蒙。可以确定,奥德里奇就是他们要找的内鬼。
不服从指挥的意外收获
FBI立即对奥德里奇展开了正式调查。FBI通过*话监电**听、电子收听设配、监视、直升机,甚至是垃圾处理等途径一点点立案调查。有些方法在今天看来都是些不可思议的调查手段。
负责奥德里奇调查案的罗伯特·布莱恩特表示当时他们需要在墙上钻孔才能把麦克风放进去,如果要进入石膏板的话,就还需要连一条电线,但最难的是跟石膏板匹配起来。
这是布莱恩特第一次公开谈论奥德里奇的案子。他说:"我们在奥德里奇的车和家里都放置了麦克风,对他的监视也基本全覆盖了他每一天的生活。"当奥德里奇从离兰利市(中情局总部所在地)不远的阿灵顿家中一路驱车而来的时候,他们甚至还调用了一架直升机,让一名FBI探员坐在里面拿着望远镜在空中一路监视着奥德里奇。
布莱恩特曾明确要求手下的探员不得去搜寻奥德里奇家的垃圾,但探员还是这样做了,并且正是因为他们搜寻了奥德里奇家的垃圾袋,案子才取得了重大进展。

1993年的秋天,一名探员带着一个装有一张黄色便条的透明塑料袋走进了布莱恩特的办公室。便条上记录着奥德里奇手写的一次会面,上面写着奥德里奇本该与一名苏联克格勃特工在哥伦比亚波哥大见面。这成为了该案至关重要的转折点。
头脑里的文件夹
杰夫·乔纳斯数十年前在维加斯开发的NORA系统已经被内部行业所熟知的实体识别所取代。实体识别试图让电脑跟人脑一样建立联系——我们的大脑可以在自己都没有意识到的情况下,几乎是一瞬之间就建立起联系。
拿音乐家普林斯(Prince)来说,他名字中所使用的符号可能是我们最先想到的,然而我们并不知道该如何解释自己是怎么将这个符号同Prince联系到一起的。接着是其他的联系,比如他的歌《Purple Rain》,他的紫色吉他,紫罗兰色西服。
杰夫解释道:"随着时间的流逝,一个人脑子浮现的关于Prince的各种事都存在于这人脑子的一个'文件夹'里。这些事被想起来的时间不同,对它们的描述也有所差异,但是实体识别将这些事都*绑捆**在一起。"

实体识别跟传统算法的不同之处在于,实体识别不会通过仔细检查庞大的数据集来查看其可找到的东西,而是试图像人脑一样对事物进行组织,比如社会安全号码和车辆识别码以及路由器序列号有什么不同?生日号码和汽车型号有什么区别?二者的相同之处是它们通常都能识别出单个离散的事物。
如果汽车花名册上出现相同的车辆识别码,电脑会注意到并对其进行标记。随着算法的发展,可能还会发现一些无法被计算的事物。在奥德里奇的案子里,奥德里奇花40万美元现金买了一栋房子,但是他年薪连7万美元都不到。算法可能将这一点标记为奇怪,但是具体内容还需要进一步的研究。
杰夫表示,这套算法中最为精妙的一点在于它可以改变对过去的看法。换句话来说就是,这套算法可以回到过去以查看一项新的信息是否能对当前的分析产生新的启发。比如,在案子中,7月底奥德里奇与苏联驻华盛顿外交官共进午餐,这不禁让人怀疑之前一些类似的会面,这里面是否有一个之前没被注意到的固定的会见模式?
人类需要很多时间去处理这些信息,但电脑不需要。重要的是,电脑不需要依靠任何第六感或直觉。列一堆"感觉不对劲"的名单的办法并不总是那么有用。实体识别有可能就是弥合这种差距的技术。
在奥德里奇被逮捕前的许多年里,没有一个人注意到他的工作模式发生了改变。没有算法将他当时酗酒、经历了一场昂贵的离婚、用现金买了一栋房子、换了一辆新车、工作上迟到早退等事件组合到一起。奥德里奇本人也承认应该是这些反常之处引起了中情局注意,但中情局大费周章之后才明白这一点。

前中情局分析专家雅艾尔·埃森斯塔特表示,算法不能理解一个人行为模式的改变到底是出于什么原因。可能是因为有了孩子,所以上班时间跟以前不同了,也可能是因为一些心理疾病要在早上看心理医生……有太多的实际人为因素导致行为模式的改变,而算法对此无从得知。
这也是为什么目前算法仍然需要像桑迪做的那样,人为地进行两两配对。回想起来,桑迪的"蜘蛛感官"比任何算法都要有效。之后桑迪回忆说,正是奥德里奇的自大帮助她断定这个男人就是他们要找的内鬼。奥德里奇自认为比任何人都要聪明,甚至还向桑迪和维特弗伊就调查活动提出建议。
奥德里奇告诉桑迪分别看看成功和失败的案例,然后看看它们有什么不同之处。他认为桑迪和维特弗伊就是两个笨蛋。
但最后,正是这两个笨蛋抓住了间谍。
文/杨慧
【DAILY MEDIA 出品】