#暑期创作大赛#

我在网上看到越来越多的人工智能生成的文本,在过去的几个月里,我注意到在互联网上发布的文章上有一些评论让人感到奇怪……不对劲。它们在语法上是正确的,但在本质上却显得有点陌生。它们通常会:
a)平淡无奇地赞美文章,比如“这篇很棒”
b)平淡地重复文章的主要内容,比如“本文论述了[X,Y和Z]”)。
它们通常不具有独特性和发自感性的评论,它们只是沉闷的摘要。
我只是发现有这种评论,并没有对这些评论(及其评论者)进行深入调查。或许它们是真实的。但它们看起来很像是有人使用大型语言模型自动生成评论。
他们为什么要这么做呢?嗯,谁知道呢。也许是某个程序员在随意尝试。或者是有人创建了一大批机器人账户,并通过正常、平淡无奇的互动为它们积累长期历史记录,以便以后出于某种目的使用它们。
结果这增加了在网上快速增长的灰色垃圾语言。搜索“作为AI语言模型”或“重新生成回应”这样的短语,你会发现包含这些内容的博客文章、推文以及各大网站上的评论。博主坦诚地承认他们为搜索引擎优化而自动生成文章。
因此,我对最近广泛传播的一篇关于“模型崩溃”的学术论文产生了浓厚兴趣。
“模型崩溃”是指当AI语言模型接受其他模型的输出进行训练时的完全崩溃。
直到现在,像OpenAI和Google这样的公司当然一直使用真实人类的作品来训练他们的AI。他们没有完整地描述他们的训练材料。但它很可能主要关注来自互联网的内容。这包括维基百科、书籍和手册;同样重要的是,它还包括在关键的强化学习阶段,由付费的人类培训团队撰写的文本。基本上,在整个训练过程中,你需要使用大量的由人类编写的文件。这是关键所在:提取和抽象我们人类使用语言的微妙模式。
然而,正如这些学者所指出的,问题开始出现在互联网上充斥着AI生成的文本时。这意味着在未来,你将至少部分地会使用在以前的AI的输出数据基础上训练新的AI。
正如这篇论文所指出的,这有可能给这些新模型带来严重的问题。这是因为AI模型在训练中往往会稍微过度强调或不够强调分布和模式。如果你在它们的输出上训练后续模型,这些缺陷会开始演变成一个越来越大的雪球,而新的模型会开始明显偏离现实。
科学家们通过实验,在先前的模型输出上训练模型的几代,并且可以看到AI变得越来越古怪。
一个受模型崩溃影响的模型的文本输出示例 - 模型在几代中退化,其中每一代新模型都是在前一代生成的数据上进行训练。
研究人员还发现,即使模型的训练数据中只有10%是由AI生成的,模型仍然会变得奇怪和松散。
AI公司如何避免“模型崩溃”?我猜想OpenAI、Google和其他AI公司的人们已经在认真考虑这个问题。
研究人员提出了几种方法...
首先是保留原始数据的一份高质量副本,这份数据仅或主要由人类生成,并避免用AI生成的数据污染它。然后,可以定期在这些数据上重新训练模型,或者完全用这些数据刷新模型,从头开始。
第二种方式是将新的、纯净的、人类生成的数据集重新引入它们的训练,以避免响应质量的降低,并减少AI模型中不必要的错误或重复。
换句话说,模型崩溃将聚光灯投向原创、真实、人类撰写作品的质量。
从某种意义上说,这是一个好结果,对吧?大型语言模型AI的兴起引发了大量的“人类表达何去何从”的文章,其中充满了对人类创造力是否会因AI写作的普及而受损的紧张担忧。两个最大的担忧是:担心AI会扼杀创意表达的市场(即,如果机器人能以很低的成本完成写作,谁还会付钱购买作品?),以及担心AI会扼杀写作的欲望(即,如果AI能以很少的努力做得很好,为什么还要费心去写?)。
(当然,对大型AI还有很多其他担忧,从培训的伦理/法律性质到它们在虚假信息和“说谎者的红利”中的应用。)
关于这两个担忧 —— 原创人类表达的市场和欲望 —— 模型崩溃表明,在纯粹的工业层面上,由真正的有血有肉的人类完成的原创人类作品将保持相当的价值。
理论上是这样!当然不能保证金钱、资本和权力会流向人类。如今,日益垄断的、受监管捕获的市场往往主要将资金引导向现有的赢家,即现有的亿万富翁和市场上根深蒂固的公司。普通人并不在考虑之列。因此,人类的表达可能既是人类繁荣至关重要的,同时也在经济上被忽视。在过去的几千年里,这肯定是一种模式。
但结果是,即使是机器人也需要人类。