为什么ai大模型突然爆发 (ai模型巨大进展)

#暑期创作大赛#

为什么ai大模型突然爆发,Ai大模型真的能理解人类吗

我在网上看到越来越多的人工智能生成的文本，在过去的几个月里，我注意到在互联网上发布的文章上有一些评论让人感到奇怪……不对劲。它们在语法上是正确的，但在本质上却显得有点陌生。它们通常会：

a)平淡无奇地赞美文章，比如“这篇很棒”

b)平淡地重复文章的主要内容，比如“本文论述了[X，Y和Z]”）。

它们通常不具有独特性和发自感性的评论，它们只是沉闷的摘要。

我只是发现有这种评论，并没有对这些评论（及其评论者）进行深入调查。或许它们是真实的。但它们看起来很像是有人使用大型语言模型自动生成评论。

他们为什么要这么做呢？嗯，谁知道呢。也许是某个程序员在随意尝试。或者是有人创建了一大批机器人账户，并通过正常、平淡无奇的互动为它们积累长期历史记录，以便以后出于某种目的使用它们。

结果这增加了在网上快速增长的灰色垃圾语言。搜索“作为AI语言模型”或“重新生成回应”这样的短语，你会发现包含这些内容的博客文章、推文以及各大网站上的评论。博主坦诚地承认他们为搜索引擎优化而自动生成文章。

因此，我对最近广泛传播的一篇关于“模型崩溃”的学术论文产生了浓厚兴趣。

“模型崩溃”是指当AI语言模型接受其他模型的输出进行训练时的完全崩溃。

直到现在，像OpenAI和Google这样的公司当然一直使用真实人类的作品来训练他们的AI。他们没有完整地描述他们的训练材料。但它很可能主要关注来自互联网的内容。这包括维基百科、书籍和手册；同样重要的是，它还包括在关键的强化学习阶段，由付费的人类培训团队撰写的文本。基本上，在整个训练过程中，你需要使用大量的由人类编写的文件。这是关键所在：提取和抽象我们人类使用语言的微妙模式。

然而，正如这些学者所指出的，问题开始出现在互联网上充斥着AI生成的文本时。这意味着在未来，你将至少部分地会使用在以前的AI的输出数据基础上训练新的AI。

正如这篇论文所指出的，这有可能给这些新模型带来严重的问题。这是因为AI模型在训练中往往会稍微过度强调或不够强调分布和模式。如果你在它们的输出上训练后续模型，这些缺陷会开始演变成一个越来越大的雪球，而新的模型会开始明显偏离现实。

科学家们通过实验，在先前的模型输出上训练模型的几代，并且可以看到AI变得越来越古怪。

一个受模型崩溃影响的模型的文本输出示例 - 模型在几代中退化，其中每一代新模型都是在前一代生成的数据上进行训练。

研究人员还发现，即使模型的训练数据中只有10%是由AI生成的，模型仍然会变得奇怪和松散。

AI公司如何避免“模型崩溃”？我猜想OpenAI、Google和其他AI公司的人们已经在认真考虑这个问题。

研究人员提出了几种方法...

首先是保留原始数据的一份高质量副本，这份数据仅或主要由人类生成，并避免用AI生成的数据污染它。然后，可以定期在这些数据上重新训练模型，或者完全用这些数据刷新模型，从头开始。

第二种方式是将新的、纯净的、人类生成的数据集重新引入它们的训练，以避免响应质量的降低，并减少AI模型中不必要的错误或重复。

换句话说，模型崩溃将聚光灯投向原创、真实、人类撰写作品的质量。

从某种意义上说，这是一个好结果，对吧？大型语言模型AI的兴起引发了大量的“人类表达何去何从”的文章，其中充满了对人类创造力是否会因AI写作的普及而受损的紧张担忧。两个最大的担忧是：担心AI会扼杀创意表达的市场（即，如果机器人能以很低的成本完成写作，谁还会付钱购买作品？），以及担心AI会扼杀写作的欲望（即，如果AI能以很少的努力做得很好，为什么还要费心去写？）。

（当然，对大型AI还有很多其他担忧，从培训的伦理/法律性质到它们在虚假信息和“说谎者的红利”中的应用。）

关于这两个担忧 —— 原创人类表达的市场和欲望 —— 模型崩溃表明，在纯粹的工业层面上，由真正的有血有肉的人类完成的原创人类作品将保持相当的价值。

理论上是这样！当然不能保证金钱、资本和权力会流向人类。如今，日益垄断的、受监管捕获的市场往往主要将资金引导向现有的赢家，即现有的亿万富翁和市场上根深蒂固的公司。普通人并不在考虑之列。因此，人类的表达可能既是人类繁荣至关重要的，同时也在经济上被忽视。在过去的几千年里，这肯定是一种模式。

但结果是，即使是机器人也需要人类。