纽约时报状告openai和微软侵权 (因版权问题微软和openai再遭起诉)

诉状正文事实背景部分(FACTUAL BACKGROUND)由美国人工智能的发展状况、不受控制的人工智能扩散带来的风险、被告行为侵犯财产和隐私权利、儿童隐私和安全方面的特殊风险构成。今天看第三项。

事实背景之三:被告行为侵犯财产和隐私权利

诉状述称被告以下两类行为侵犯财产和隐私权利,一类是秘密搜集互联网信息的盗窃和侵占行为,该行为侵犯原告财产和隐私权利、冒犯“理性人”且无视监管机构警告;一类是在超出合理同意的情况下无限制地收集产品用户的数据,具体表现为OpenAI规则披露不显眼、被告使用的消费者数据远超行业标准和他们自己陈述的范围。

关于第一类窃取行为,原告诉称被告在秘密的情况下对互联网上的个人信息进行大规模抓取,侵犯个人的财产和隐私权利,论点主要是:

  • 在没有向公众告知的情况下,任何人都不能被视为同意他人收集其在网上的个人资料、历史、上网习惯以及其他个人信息和身份信息。
  • 被告最初的网络抓取行为基本上是秘密进行的,没有取得这些个人信息和身份信息主体同意,没有得到相关网站运营者的同意,不仅违反了这些网站的使用条款,还侵犯了主体根据加州等州法和联邦法律规定享有的选择退出此类信息收集的权利。
  • 这种行为直到2022年秋末才被发现,此时再行使隐私权已经为时已晚,因为ChatGPT已经发布,这些信息已经被抓取并整合到涉案产品赖以诞生的大语言模型之中。
  • 这让人想起2020年的Clearview AI丑闻:

Clearview是一家利用面部识别技术,根据网上照片识别个人身份的公司,该公司从各个网站和社交媒体平台上收集了数十亿张公开的照片用于AI产品开发,然后销售给执法机构、私人公司和其他政府机构。

这种数据采集行为未经用户和网站所有者同意,Clearview亦未根据加州或佛蒙特州的法律注册为数据经纪人,直到《纽约时报》曝光才被公众发现。随后,佛蒙特州总检察长在2020年3月起诉Clearview违反数据经纪人和消费者保护法,指控其通过抓取行为欺诈性地获取和中介个人信息,使消费者面临各种风险和伤害;加州和其他地方的一些个人和组织也对Clearview发起诉讼。在这些诉讼和公众监督的推动下,Clearview最终在加利福尼亚州和佛蒙特州注册为数据经纪人。

  • 本案被告和Clearview的商业模式有相同之处:在没有根据法律规定注册为数据经纪人的情况下,在没有任何通知和同意的情况下,秘密地从互联网上抓取信息,利用窃取的信息构建AI产品,然后出售产品访问权限以获取商业利益。被告的行为侵犯了数百万人的权利,且违法行为仍在继续。

原告进一步阐述被告的网络抓取行为是如何侵犯原告财产权益的:

  • 原告通过案例列举主张法院承认互联网用户对其个人信息和数据拥有财产权益(property interest),然后提出本案原告及其代表的集体诉讼成员对他们通过在线平台生成、创建或提供的个人数据和信息享有财产权(property rights),权能包括拥有、使用、获利、出售以及拒绝他人在未经同意或补偿的情况下访问或利用该信息的权利。

Calhoun v. Google, LLC:承认个人信息中的财产利益,并拒绝谷歌关于“据称谷歌窃取的个人信息不属于财产”的论点;

Experian数据泄露诉讼:确立个人识别信息价值损失是一种可行的损害赔偿理论;

Marriott Int’l Inc. 客户数据安全违约诉讼:考虑这一问题日益增长的趋势,法院承认这些个人信息损失财产价值。

Simona Opris v. Sincera:收集病例。

  • 然后进一步强调个人信息财产权益的经济价值,指责被告未经同意的数据和个人信息盗用行为是现代科技发展史上前所未有的价值窃取行为:

原告在这里提出,个人信息财产权益(property interest)的经济价值是众所周知的,这类数据的强劲市场推动技术经济发展。正如专家们所指出的,世界上最有价值的资源“不再是石油,而是数据”,事实上也是多年以来一直如此。一个互联网用户的信息价值从15美元到40美元不等,甚至更多。另一项研究发现,一个人的网络身份(online identity)在暗网上可以卖到1200美元。被告在未经同意的情况下盗用数据以及数百万互联网用户的个人信息的行为是现代科技时代前所未有的价值盗窃。

诉状还引用了Paul M. Schwartz教授和其他专家的观点,强调个人数据的价值。教授在为《哈佛法律评论》撰写的文章中说个人信息是新千年的重要货币。个人数据的货币价值很大,而且还在不断增长,(这就是)美国企业正迅速从这一趋势中获利的原因。这些数据构成了重要的“公司资产”。其他专家也表示赞同:“收集如此大量的数据具有明显而巨大的经济价值。个人的特征和属性(比如一个人的年龄、地址、性别、收入、偏好……(他们的)点击量、网上发表的评论、社交媒体上更新的照片等等)越来越被视为商业资产。”

  • 有价值就有市场交换。诉状写道,像原告及其代表的集体诉讼成员这样的互联网用户,原本可以出售自己的个人数据和网络使用信息,或将其货币化(例如,Facebook会为用户的录音付费)。而本案被告的数据收集行为,没有经过任何集体诉讼成员的同意,更别说支付报酬。
  • 鉴于法律承认通过未经授权的个人数据收集所获得的非法利润中存在法定利益(legal interest),被告通过窃取个人信息并在其价值数十亿美元的人工智能业务(包括ChatGPT等)中进行变现获取财富,原告有权追讨和/或要求与被盗数据价值和/或被盗数据在被告利润中所占份额相当的赔偿。

关于被告的网络抓取行为侵犯原告隐私利益,原告述称:

  • 除了财产权,互联网用户还对个人信息享有隐私权——即使这些信息已经发布在网络上,因为收集、处理和进一步传播这些信息会对隐私权造成明显的伤害,即使只有少量的“公开”私人信息,也足以损害互联网用户的隐私权益。

比如,收集到的信息的聚合可以揭示关于一个人的新信息,这是原始、孤立的数据最初被收集时预想不到的。再比如,研究人员通过分析公开的推文可以识别用户的心理健康问题,而这些用户并没有同意或预期他们的数据会被用于这种方式,这可能会泄露关于他们的,新的,高度私人的信息。如果这些分析被公开或商用,将对隐私造成重大的、法律上可认定的损害。

  • 用户对互联网上的个人数据享有隐私权益的另一个原因是“合理预期”,因为:

即使这些数据在技术上是“公开的”,用户也可以合理期望它是“默默无闻的”,因为“当用户的活动或信息不太可能被发现、看到或记住时,它在某种程度上是安全的”。正如隐私专家指出的,用户的合理预期是大多数互联网用户会轻易忽略他们个人的帖子,时间的流逝也会使信息模糊——“没人会记得你15年前的MySpace照片”。

这种合理期望也受已知交易成本的影响:通常情况下,交易成本会“阻止某人从你使用过的每个社交媒体网站上收集你的所有照片”,网络信息假设可用并不意味着大多数(或者少数)人有知识和能力访问“公共”和“私人信息”。

  • 也就是说,当用户在互联网上发布信息时,他们相信这些信息在他们发布的人和网站上都是模糊的,并且处于一个可信环境中。用户们希望有一定程度的隐私,不希望自己的信息被数据抓取收集。
  • 而被告这类通过数据抓取,广泛、自动化地收集个人信息的行为会带来隐私问题——它通过降低典型的交易成本和大规模访问、收集和理解个人信息的难度,“破坏”了用户的合理期望。用户无法预料到其个人信息会被这样收集,也无法参与数据收集过程、无法控制自己的数据如何被使用,已经严重侵害用户隐私权利,破坏个人的自主权和自由选择权。这种侵害还不仅仅是感觉上的,鉴于个人信息的经济价值与庞大市场,它已经造成实际的经济损害。

结合隐私专家的分析,就算用户做出了肯定的选择,公开网络帖子,其表达的意图也是参与一个“模糊和值得信赖的环境”的意图,而非参与数据收集的意图。具体到本案,原告甚至不可能知道被告在收集他们的个人信息,因为被告没有发出任何通知,也没有注册为数据经纪人。

加州议会在介绍数据经纪人相关法律的立法意图时说:“消费者通常不知道数据代理拥有他们的个人信息,不知道如何行使他们选择退出的权利,也不知道他们是否可以按照加州法律的规定删除自己的信息。”因此,“立法机关的意图是通过要求数据经纪人每年向司法部长注册并提供消费者如何选择不出售其个人信息的信息,从而为消费者提供额外的工具来帮助控制其个人信息的收集和销售,从而进一步保护加州人的隐私权。”

被告行为落入上述规制范围——将窃取的数据商业化到ChatGPT并从中建立了数十亿美元的业务,却并没有按照要求在加州注册为数据经纪人。这种秘密的信息收集行为,将个人排除在数据收集过程之外,使个人在控制如何使用他们的数据方面感到无能为力,已经严重侵害用户隐私权,破坏个人的自主权和自由选择。缺乏通知的抓取行为也让用户无法行使法定隐私权,比如要求删除的权利。

除了侵犯财产权和隐私权,原告还主张被告的商业行为冒犯“理性人”并且无视监管机构日益明确的警告:

  • 被告为商业目的大规模抓取个人数据的行为,引发了人们对其合法性和隐私影响的愤怒;被告将这些信息嵌入涉案产品的行为,也让人们担心自己的个人信息被访问、共享和滥用;更让人反感的是,被告不顾隐私风险,利用不属于他们的数据获利,这种大规模的非法数据收集行为只会让让硅谷的科技公司和它们的亿万富翁老板们这类上层群体更富有,普通人的工作机会和作为人的权利则被牺牲。

原告在这里引用了OpenAI成立之初,还是非营利组织时的理念和创始人言论,即,如果AI产品被开发出来并用于广泛的公共使用,公司将需要为全民基本收入提供资金,因为它们会减少很多公共岗位。即使是现在,CEO Sam Altman描述的宏伟构想也是OpenAI将通过创造人工智能来获取世界上大部分财富,然后将这些财富重新分配给人们。

  • 原告认为不能让这种大规模的非法数据收集成为一种商业规范——否则作为基本权利的隐私权将被扔进历史的垃圾箱,法院应当进行干预:

1)公众对被告如何使用其“数字足迹”以及未来会如何使用其全部个人信息感到恐惧和焦虑,应当采取原告在本诉讼中提出的禁令救济措施加以限制;

2)应当要求被告对此进行补偿,这不仅是基于被告行为违法侵权性的考量,也是从人工智能整体发展角度,出于避免财富更集中和失业率增加的考量——人们呼吁对“不义之财”进行合法或公平的重新分配;

3)为避免被告不当得利,法院有权要求被告向消费者(至少是本案原告及其代表的类别)支付“数据派息”(Data Dividend)——只要产品通过盗用数据产生收入,用于补偿这些消费者为(被告构建和发展产品所依赖的)大语言模型作出的贡献的公平市场价值,补偿金额将基于专家证词确定。

  • 原告进一步提出,诉讼寻求保护的财产和隐私权不是新问题,但AI发展所依赖的大语言模型在商业实践中如何应用它们,法律规则还有待明确。原告在这里援引监管机构与亚马逊的诉讼进行说明:

亚马逊因非法使用语音数据训练Alexa产品的算法模型被联邦贸易委员会(FTC)起诉。FTC宣布和解时,对被告等公司发出了严厉的公开警告:“亚马逊并不是唯一一家显然在寻求收集数据以完善其机器学习模型的公司;现在,随着大型语言模型的出现,整个科技行业都在努力做同样的事情”。“FTC还说,和解是要向所有人传递一个信息:“机器学习不是违法的借口……您用于改进算法的数据必须是合法收集和合法保留的。公司应该好好吸取这个教训。”

上述警告和FTC委员Rebecca Slaughter于2021年《耶鲁法律与技术杂志》上的警告一致。在讨论算法破环(algorithmic destruction)问题时,Slaughter解释说:“前提很简单:当公司非法收集数据时,他们不应从数据或使用数据开发的任何算法中获利。”Slaughter相信这种执法方法将向从事非法数据收集的公司发出明确信息——使用非法数据训练AI模型,“不值得”。

不幸的是,本案被告无视了这一警告。

原告继续对被告第二类数据窃取行为进行陈述,即在超出合理同意的情况下从涉案产品用户处(包括OpenAI网站注册用户、被告API和/或插件用户)处无限制收集用户数据:

  • 对于使用ChatGPT插件或API的消费者来说,各个网站的使用政策并没有提供任何类似知情同意的内容,告知消费者其信息和个人数据将被用于训练被告的大语言模型、并将因此被纳入到生成式人工智能产品中——原告认为被告这样做的目的是为了预防消费者提出数据删除要求。

诉状在这里还特别强调ChatGPT正在成为一个“统治所有人”的应用程序,除了在产品开发和与用户交互阶段就已经收集和利用未经许可的数据,ChatGPT的API和插件支撑它更为广泛地、从数量众多的应用程序中再次未经用户/非用户同意,获得大量个人数据。

这使被告的AI成为虚拟间谍,密切监控、记录和培训数百万毫无戒心的人的个人数据、点击、搜索、输入和个人信息,这些人可能使用Instacart购买食品杂货,使用远程医疗公司预约医生,或者只是浏览Expedia以制定度假计划。

  • 即使是注册了OpenAI账户并与ChatGPT直接互动的原告和集体诉讼成员,也没有有效地同意被告以被诉方式使用其数据和个人信息;

例如,当原告登录使用ChatGPT时,被告正在跟踪和收集输入聊天机器人的每一条信息,包括敏感信息,如:输入聊天机器人的所有详细信息;用户注册时输入的账户信息;名称;联系方式;登录凭证;电子邮件;付款信息;交易记录;IP地址和位置;社交媒体信息;聊天记录数据;使用资料;分析;cookies。被告还从其他嵌入涉案产品的应用程序中追踪信息,比如Stripe、Microsoft Teams、Bing、Zillow、Expedia、Instacart等等——并利用这些信息训练AI。

原告和所有集体诉讼成员都不同意被告该等行为,因为他们一开始就不知道其敏感信息会被以这种方式收集和使用。因此,被告在收集、使用、存储原告和集体诉讼成员的敏感信息方面未获有效的、可执行的同意。

诉状在这里还提到,在不久的将来,被告还能为其无所不知的AI添加更强大的功能,使其能够从另一个AI——Vall-E的音频输入中收集数据,这种对人类声音和音频输入的访问将进一步危害用户/非用户隐私。

  • 被告欺骗性地告诉用户他们可以要求被告不使用其私人信息,如果父母发现孩子用了ChatGPT,可以要求被告从系统中删除孩子的数据。这是骗人,因为当语言模型接受信息并从中学习时,这些信息就已经在经济上使被告受益,并且不能从语言模型的知识库中删除——一旦使用数据训练语言模型,这些数据就已经成为模型的一部分。被告OpenAI表示,尽管用户要求选择退出数据收集和共享,但它仍将保留一些信息(未说明保留哪些信息)。

原告提出,目前,ChatGPT用户如果不想让他们的数据和聊天记录用于模型训练,可以简单地关闭聊天记录(这剥夺了他们自己使用该等功能的权利),应用程序将停止使用新的聊天内容进行训练。然而,被告还是会继续用用户的信息训练他们的模型——无论是以前的聊天还是新的聊天。用户也不可能知道以前使用的任何数据是否可以有效地删除,因为一旦使用数据训练语言模型,它就成为模型的一部分。此外,选择退出聊天记录,并不影响OpenAI使用在创建帐户过程中收集的用户其他个人数据的能力。

原告认为OpenAI的隐私披露故意含糊不清,只是指出用户可以选择退出聊天历史记录保留,或者可以提交表单要求OpenAI不要使用或共享他们的数据,但对具体执行方式(是否会拒绝,不拒绝的话会在何时进行处理,需要多久来处理等等)都没有提供解释。

评论员还观察到OpenAI会想办法让用户不要选择退出数据收集。一旦用户关闭了用于训练目的的ChatGPT交互选项,他们就会不断看到一个绿色的大按钮,鼓励他们“启用聊天记录”,这个按钮上,没有任何内容通知用户,启用该功能相当于重新授权OpenAI保存并利用用户数据训练模型。

  • 被告未能就其数据共享行为的规模向消费者提供准确而全面的通知,其数据滥用行为已违反透明、负责和尊重消费者隐私权的原则。

1)OpenAI的披露方式,形式上不够显眼,内容上既未推定用户知情,也未询问用户注意,效力上不能形成有效同意:

注册OpenAI账户的消费者只能看到小型的、灰色的超链接指向隐私政策和使用条款,字体非常小;消费者无需表明是否实际阅读了这些文件,是否理解这些文件与他们创建账户之间的关联;与其他公司要求消费者滚动到底部或点击已阅读单选按钮不同,OpenAI的注册者无需做出任何肯定的表示,表明他们了解这些政策。

原告进一步援引Colgate v. JUUL Labs, Inc.、Nguyen v. Barnes & Noble Inc.和Selden v. Airbnb, Inc.案例,提出法院在审查相关协议效力时会考虑诸如超链接的颜色、大小和字体等因素,以及超链接是单独呈现还是在混乱的文本中呈现等因素,如果协议的超链接“不够显眼,不足以让原告看到询问通知”,那么该协议就不具有约束力,“即使超链接离用户必须点击的相关按钮很近,也不足以产生建设性通知”。

2)被告对消费者数据的使用远超行业标准和他们自己的陈述:

FTC颁布了许多有关企业数据安全措施的指南,其中2016年更新的《保护个人信息:商业指南》(Protecting Personal Information: A Guide for Business)提出企业应当保护他们留存的个人客户信息、妥善处理不再需要的个人信息、加密存储在计算机网络上的信息、了解网络漏洞并纠正安全问题。FTC进一步建议,企业保留个人身份信息的时间不要超过授权交易所需的时间、限制访问敏感数据、要求在网络上使用复杂的密码、使用经过行业测试的安全方法、监控网络上的可疑活动并验证第三方服务提供商是否实施了合理的安全措施。

FTC对未能充分合理地保护客户数据的商业实体采取了执法行动,将未能采取合理适当的措施来防止未经授权访问机密消费者数据的行为视为《联邦贸易委员会法》(FTCA)所禁止的不公平行为或做法。这些执法行动产生的命令,进一步明确了企业必须采取的措施,以履行其数据安全义务。而本案被告未能履行这些义务,他们直接将消费者的个人信息输入到其语言模型中用于模型训练。

被告的隐私政策模糊且存在内部矛盾,被告虽然在隐私政策和在线声明中肯定且明确地表示“任何向被告提供的个人信息都将保持安全和受保护”,承诺采取符合行业标准、州法和联邦法律要求的具体措施来保护用户信息,但其并未做到。原告和集体诉讼成员信赖被告在数据安全方面的陈述和承诺,却因此遭到损害,如果被告如实披露用户的每次点击、每次搜索和敏感信息的每次输入都被跟踪、记录、收集并向第三方披露,用户不会在被告的产品中输入这些信息。

a. 例如,在“美国各州额外披露”(Additional U.S. State Disclosures)项下,隐私政策列出了五个不同类别的“个人信息”,其中一个类别被OpenAI确定为“敏感个人信息”,并指出OpenAI向“我们的附属公司、供应商和服务提供商、执法部门和参与交易的各方”披露了所有五个不同类别的信息。然而,隐私政策在几个段落之后又莫名其妙地断言:“我们不出售或共享个人信息。”被告对公司是否共享个人信息这一说法的含义没有给出任何解释。被告后来更改了这一措辞,澄清他们“不’出售’个人信息或’共享’个人信息以用于跨语境行为广告(术语定义以当地法律为准)”。然而,对于被告如何确保与他们共享用户个人信息的实体实际上没有将其用于跨语境行为广告,没有给出任何解释。被告也没有透露他们使用这些敏感数据的具体目的。

b. 隐私政策提醒消费者,如果当地法律赋予他们请求删除个人信息的权利,他们可以通过向dsar@openai.com发送请求来行使这一权利。然而,隐私政策中没有任何内容解释说,已经被纳入被告语言模型的信息永远不会真正被删除。

c. ChatGPT缺乏年龄控制。隐私政策指出该服务不适合13岁以下的儿童使用,却没有提供的有效的限制措施用以预防13岁以下的儿童访问平台、AI技术与儿童互动不当以及未经授权收集儿童数据。

d. 就算用户被告知隐私政策(实际上没有),隐私政策中也没有披露*听窃**行为——没有被明显或明确地向用户披露所有对话都会被*听窃**、记录并与众多实体共享。被告的*听窃**行为未取得用户同意。OpenAI的条款和条件错综复杂、不显眼、由大量文件组成,理性消费者也很难破译。

e. 原告和集体诉讼成员信赖被告在数据安全方面的陈述和承诺,却因此遭到损害。原告强调:被告知道或应该知道,原告和集体诉讼成员将合理地依赖并信任被告关于其数据和系统的安全性的承诺;被告知道ChatGPT收集、跟踪和披露原告和集体成员的用户数据,包括敏感信息;被告知道每次用户与ChatGPT交互时,他们的用户数据将被收集并披露给第三方。

下篇看事实背景的最后一点,被告行为在儿童隐私和安全方面的特殊风险。

参考:P.M. v. OPENAI LP (3:23-cv-03199)