纽约时报状告openai和微软侵权 (纽约时报起诉openai和微软)

上文写到诉状正文事实背景部分由美国人工智能的发展状况、不受控制的人工智能扩散带来的风险、被告行为侵犯财产和隐私权利、儿童隐私和安全方面的特殊风险构成。

其中第一部分“美国人工智能的发展情况”项下分五点：OpenAI转型、OpenAI的产品、ChatGPT的发展有赖于秘密的网络抓取行为、被告如何利用用户个人数据训练ChatGPT、微软推广OpenAI的经济依赖模式。昨天看了第一点，今天看后四点。

事实背景之一：美国人工智能的发展情况（2-5）

原告陈述OpenAI组织结构转型及与微软合作的影响后（第一点），对OpenAI的产品及相关数据收集和利用情况进行简述（第二点）：

ChatGPT：

OpenAI最著名的产品，也是世界上最著名的人工智能产品，突破性的聊天机器人。一旦用户在ChatGPT中输入问题或提示词（prompt），AI模型就会消化这些信息，聊天机器人会根据用户提供的信息以及信息与庞大的训练数据匹配情况进行响应。

ChatGPT于2022年11月30日作为“research preview”发布，一篇博客文章不经意地向世界介绍了这款人工智能聊天机器人：“我们已经训练了一个模型……它们以对话的方式相互作用。”ChatGPT随后大受欢迎，在短短两个月内就达到了1亿用户，成为历史上增长最快的应用程序。相比之下，TikTok花了9个月才达到同样的标准。ChatGPT继续呈指数级发展，2023年4月访问量达到18亿。（诉状里很多用词是有情感色彩和倾向性的，比如casually introduced）

ChatGPT建立在统称为GPT-3的大语言模型家族之上：ChatGPT-3.5是在来自互联网的570GB文本数据上进行训练的，这些数据包含数千亿个单词，包括来自书籍、文章和包括社交媒体在内的网站的文本。基于庞大的训练数据，ChatGPT可以对文本提示和问题生成类似人类的答案，这使它可以像“一个友好的机器人”一样互动。它可以基于指令做很多人类才能做的事，比如写诗、作曲、写论文、制定课程计划等等，而且速度比人类快得多。自然地，整个世界都对这些能力感到震惊。

OpenAI发布的其他基于人工智能的产品DALL-E、OpenAI Five、OpenAI Codex，可供商用（集成到某个主体的业务之中）和个人使用。

1）DALL-E（由DALL-E和DALL-E 2组成）是OpenAI开发的、基于自然语言描述（称为“prompts”）生成逼真数字图像的深度学习模型。DALL-E使用GPT-3的一个版本，经过修改后可以生成图像。

2）OpenAI Five是OpenAI开发的电脑程序，可以玩5对5的电子游戏Dota 2.

3）OpenAI Codex是OpenAI开发的另一个人工智能模型，诉状中的描述是“which is programmed to generate computer code for use in programming applications”，我们平时常用的描述是“编程语言预训练模型”。

VALL-E

诉状还提及VALL-E，介绍道“它还开发了VALL-E，但尚未发布给公众使用”，“VALL-E是另一种人工智能模型，目的是合成高质量的个性化语音——仅需要一个看不见的说话者的三秒录音作为prompt”，“VALL-E接受了来自数千名演讲者的音频训练”。

我们看的资料一般都介绍说VALL-E是微软开发的，但诉状这段话的描述看起来是说OpenAI开发的：“139. OpenAI has also released other AI-based products DALL-E, OpenAI Five, and OpenAI Codex for commercial (to integrate within one’s business) and personal use. It also developed a program VALL-E, which has not been released for use to the public yet. ”VALL-E令人印象深刻，因为仅需对声音进行三秒钟的采样就可以模拟出这种声音的语音，一经推出就引发了很多安全、伦理方面的讨论。

第三点是ChatGPT的发展有赖于秘密的网络抓取行为：

原告在这里述称被告秘密地从互联网上抓取了大量个人数据，包括个人信息、聊天记录、在线客户服务互动、社交媒体对话和从互联网上抓取的图片，用于训练其大语言模型（例如ChatGPT）。被告在获取这些数据时，未经数据主体同意，未按法律要求注册为数据经纪人。
原告还述称被告使用了包括Common Crawl、WebTex2在内的至少五个不同的数据集来训练ChatGPT，其中包含大量个人信息。原告认为被告行为是出于经济利益的考虑，并未考虑隐私风险，发起本诉讼的目的就是保护个人隐私权利并要求被告对其行为进行合理补偿。

具体来说：

涉案产品相关的大语言模型需要利用大量数据来“训练”AI，包括人类对话数据在内的任何类型的个人数据对这一过程都是有价值的，因为这正是涉案产品开发“human-like”能力的方式。
一般来说，可以像购买其他内容或财产一样购买互联网用户数据。鉴于我们个人信息对公司而言，无论是出于营销还是其他目的，都具有价值，这类数据有一个成熟的市场，合法获取数据通常需要“同意”和“对价”。
但被告没有这么做，被告在已经建立购买和使用个人信息的协议的情况下，采用了“盗窃”这一方式获取个人信息，即通过使用机器人或机器人程序，扫描、复制网页上的信息，然后存储和索引这些信息。原告主张被告系统地从互联网上的书籍、文章、网站和帖子中抓取了3000亿个单词，其中包括未经同意的个人信息。（关于“3000亿个单词”，美国国会五月份出的报告 Generative Artificial Intelligence and Data Privacy: A Primer 中也用了这个数据。）
原告进一步引用牛津大学计算机科学教授Michael Wooldridge相关发言，述称：

1）大量个人数据被用于涉案产品，包括人们在互联网上的在线聊天记录以及其他形式的个人对话（比如和在线客服的互动和社交媒体对话），还包括数十亿张来自照片网站和个人博客的图片，其中有很多涉及儿童。

2）这些个人信息反映了我们的爱好和兴趣、宗教信仰、政治观点和投票记录、所属的社会团体、性取向和性别认同、个人关系状况、工作信息和历史、有关家庭和孩子的细节信息（包括图片）、听的音乐、购买行为、一般的喜好和厌恶、说话和写作的方式、心理健康和疾病、住在哪里和去哪里、访问的网站、数字订阅，朋友群和其他相关数据、电子邮件地址、其他联系方式和识别信息，等等。

原告强调被告并未能充分将个人身份信息从训练模型中过滤出来，将数百万人置于信息泄漏风险之中。
原告引用悉尼大学教授Uri Gal的评论：“ChatGPT是数据隐私的噩梦。如果你曾经在网上发过帖子，你应该注意了”，表示被告未经许可收集数据的广度和范围，基本上影响到每一个互联网用户，引发了严重的法律、道德和伦理问题。虽然世界各地的监管机构和法院都试图打击AI研究人员“在未经同意或通知的情况下收集内容”，被告和其他同行的回应还是对数据集高度保密，不允许监管机构或其他审计方访问。
诉状进一步对涉案产品数据集及数据来源进行说明，提出尽管OpenAI对其数据收集和利用“绝对保密”，我们还是知道它使用（至少）五个数据集来训练ChatGPT：Common Crawl、WebTex2、Books1、Books2和Wikipedia。原告重点介绍了WebTex2和Common Craw。

1）WebTex2是OpenAI的“专有”人工智能个人数据语料库，为了构建它，OpenAI从Reddit抓取大量数据。“使用Webtext数据集的优势在于它可以不断地使用新数据进行更新。当新的网页被添加到互联网上时，它们被包含在数据集中，这有助于确保模型在最新和相关的语言数据上进行训练。”考虑到被告的抓取协议，所有这些来自不同网站的“输出”数据都是在没有通知或同意的情况下被喂给涉案产品所依赖的大语言模型。无论是Reddit本身还是Reddit用户，更不用说所有与Reddit相关的网页和个人数据的所有者，都不同意这种数据获取。

原告在此处还引用了Reddit联合创始人兼CEO的发言，用以证明Reddit认为OpenAI这种免费大量抓取数据并用于训练产品的行为是不可接受的。网上总能看到有关Twitter、Reddit等数据接口收费和定价、引发的纠纷和口水仗的新闻，感兴趣的话可以搜来看看，诉状援引这些内容侧面也是为数据的财产属性和经济价值等进行铺垫。

2）Common Crawl是公众目前所知到的另一个主要数据集。pb级数据中包括原始网页数据、元数据摘录和来自所有类型网站的文本摘录，包含了近一万亿单词。Common Crawl数据集由同名非营利组织拥有，其数据免费提供给公众，但限于研究和教育目的的使用。它从未打算像被告那样大量使用数据并变成商用AI产品，一方面501(c)(3)不会允许这种出于商业目的、大规模滥用个人数据的行为，另一方面是就算它这样做了，它也没有得到用户关于个人数据抓取的同意。Common Crawl所包含的大量个人数据被滥用已经引起人们关注，原告在这里引用了旧金山数字艺术家Lapine的例子（ James Bridle, The Stupidity of AI, THE GUARDIAN Mar. 16, 2023 ），将其描述为“一个令人不寒而栗的，由被告盗用引起的隐私侵权的例子”。结合诉状、艺术家推文及报道，这个例子的背景是：

Spawning AI公司推出了一个网站“Have I Being Trained”，艺术家可以在这个网站查询自己的照片或者作品是否被用作AI训练素材。网站测试时以LAION-5B图库为主要搜索范围，该图库有高达58亿张图像，为大型AI工具Stable Diffusion与Midjourney的主要训练数据来源。

旧金山数字艺术家Lapine在2022年9月使用该网站时，发现自己的病例照片出现训练数据集中。Lapine患有一种罕见的遗传疾病，接受治疗时医院拍摄了一些她身体的照片作为临床记录的一部分，这些照片出现在网上，然后被记录在Common Crawl档案中。Lapine曾签署医学照片的使用协议，约定这些照片仅供医生使用，不得公开泄露。

谈到被告参与的网络抓取行为，以及后续对非法所得数据进行商业化利用的问题时，Lapine表示医疗信息被抓取进数据集，照片泄露已经够糟糕的了，现在它还成了产品的一部分。

写到这里，原告引用了另一篇文章的内容（Is ChatGPT a Disaster for Data Privacy?, BUS. REP. Feb. 17, 2023），写道：从更广泛的意义上说，这种将个人信息“产品化”的行为，意味着所有这些未经我们许可就被抓取的数据现在都可以被ChatGPT用来回应来自世界各地的陌生人。更糟糕的是，ChatGPT是网络犯罪分子的“新宠”，因为被ChatGPT抓取的数十亿人的数据和其他可以指向我们的数据，现在可以被免费用于包括恶意软件、勒索软件、网络钓鱼、商业电子邮件泄漏和社会工程等在内的有针对性的攻击。

原告最后总结被告行为是出于经济利益的考虑，并未考虑隐私风险，发起本诉讼的目的就是保护个人隐私权利并要求被告对其行为进行合理补偿。

紧接着，原告在第四点中进一步陈述被告是如何利用用户个人数据训练ChatGPT的：

在最初使用未经数百万消费者同意的个人数据训练涉案产品后，被告继续使用从ChatGPT注册用户和ChatGPT插件用户（二者统称为“用户”）处收集的数据来训练AI。被告向他们的AI模型提供了来自用户交互的所有数据——每一次点击、输入、问题、使用、每一次移动、击键、搜索、用户的地理位置信息（尽管用户不愿意分享这些信息）——作为训练数据。
遭到消费者广泛批评后，OpenAI据称在限制这种以用户输入训练AI系统的模式，CEO Sam Altman称：“客户显然希望我们不要用他们的数据来训练，所以我们改变了计划：我们不会这么做。”
原告认为这是误导公众的说法，因为从更新后的使用条款来看，OpenAI只是会避免用API用户数据进行训练，条款中写了它仍然可能会用源自API以外的服务的内容开发和改进其服务。这就意味着被告继续输入、收集和存储数百万ChatGPT日常用户的数据来训练AI产品。原告还提出OpenAI亦未能充分披露其监控、保存并与包括微软在内的合作伙伴共享收集的所有个人信息。
原告提出ChatGPT在用户不知情或不同意的的情况下，系统地、有意地从用户处收集大量个人信息，包括用户在ChatGPT聊天框中输入的任何信息，用户的帐户信息、联系方式、登录凭证、IP地址和包括分析、cookies在内的其他敏感个人信息。被告将这些数据和ChatGPT投入使用前就抓取的数据汇总在一起，用有史以来最大规模的企业个人在线信息集合来武装自己，被告持续的盗窃行为还会使这座数据金矿持续增长，伴随而来的是数百万消费者要面临风险。
原告进一步提出，相比将互联网资源转化为商业利益，更令人震惊的是被告将这些个人信息“委托”给大语言模型和不可预测的类人“机器人”，被告公开承认就连他们自己也不明白“它是如何运作的”，“会产生不可预测的后果”。
原告认为冒险将数百万人的个人数据整合到不可预测的涉案产品，这些产品建立在连被告自己和顶尖科学家都不能完全了解的技术之上，其安全性无法保证，然而被告还是继续在全球范围内部署涉案产品，让他人不加限制地使用，符合严重疏忽的定义。

然后在第五点对微软推广OpenAI的经济依赖模式及其影响进行陈述：

尽管最新版本ChatGPT（GPT-4）最近才发布，被告已经成功地鼓动并将OpenAI产品渗透进从学术道医疗保健等各个领域。
微软领导了ChatGPT的快速扩张，它将ChatGPT语言模型集成到几乎所有的主要产品和服务中，随之而来的是，数据滥用风险也达到前所未有的高度。ChatGPT被整合到必应搜索引擎，该引擎拥有约1亿日活用户；ChatGPT被集成到Microsoft Teams，该平台拥有2.5亿月活用户；微软还将语言模型嵌入Cortana，该平台月活用户平均为1.41亿；最后，ChatGPT已经在Microsoft Dynamics 365生态系统中被用于驱动AI客服聊天机器人，使之以高度类人的方式理解和响应客户查询，从而显著增加信息收集范围、减少人工干预需求。
原告在这里总结道，OpenAI现在是真正意义上的微软的数据清理公司，为微软提供ChatGPT用户和非ChatGPT用户的数据。然后进一步指出，将ChatGPT集成到微软主要产品和服务，极大地放大了现有的数据隐私问题，带来消费者信任、敏感信息滥用等风险，然而微软并不承认这种风险，更别提采取措施减轻风险——微软的做法是解雇了整个“Responsible AI team”，这一万名微软道德和社会团队的员工，原本职责是确保以AI道德准则驱动产品设计。
原告进一步陈述这种做法对行业的影响：其他公司纷纷效仿微软，将涉案产品推广到几乎所有能想到的应用和服务之中。OpenAI在ChatGPT发布后这短短六个月中，已经陆续和Snapchat、亚马逊、微软、Expedia、Instacart、谷歌、BuzzFeed、KAYAK、Shutterstock、Zillow、Wolfram等大公司，以及无数其他公司合作——从医疗领域的辉瑞到约会应用OkCupid，几乎涉及所有领域。在这种情况下，列出尚未与OpenAI合作或尚未投入自有AI解决方案的公司可能会更容易。总之，OpenAI已经全面爆发并且迅速变得与人们日常生活几乎每个方面都密切相关，而这种扩张没有限制、没有边界。

最后还是得再说明一下，诉状里有大量感情色彩浓烈、倾向性很强的用语，遇到这种情况一般会简要概括总结，不会直译。明天看事实背景部分的后三点：不受控制的人工智能扩散带来的风险、被告行为侵犯财产和隐私权利、儿童隐私和安全方面的特殊风险。

参考：

P.M. v. OPENAI LP (3:23-cv-03199)，District Court, N.D. California