ai垂直领域模型训练 (ai自我意识模型)

ai人工训练模型,ai垂直领域模型训练

你是否想过,如果AI能自己训练自己,那会是什么样子?它会如何判断自己的训练效果,又如何调整训练策略呢?最近,来自Meta和纽约大学的研究人员提出了一种新颖的方法——自我奖励的语言模型( Self-Rewarding Language Models ),让AI能像人类一样,通过自我评价来优化训练过程,实现自我提升。这种新方法为AI的自我训练打开了一扇新的大门,未来或许会出现能够自我优化的AI系统,让我们一起来了解一下吧。

ai人工训练模型,ai垂直领域模型训练

添加图片注释,不超过 140 字(可选)

在介绍自我奖励语言模型之前,我们先回顾一下目前AI的训练方式。现在的AI系统通常需要大量人工标注的数据来训练,而模型的训练效果也依赖于这些数据的数量和质量。这就存在两个问题:首先,人工标注数据的时间和精力成本很高;其次,一旦标注完成,这些数据就无法再更新和优化。

为了解决这些问题,研究人员提出了自我奖励语言模型( Self-Rewarding Language Models )。这种模型能够自己产生训练数据,并自己评价这些数据的质量。它包含两个部分:一个是生成模型,可以根据给定的提示生成候选回复;另一个是评价模型,可以给出生成的回复打分。这样,AI系统就可以自己产生训练数据,自己评价数据质量,实现自我训练和提升。

ai人工训练模型,ai垂直领域模型训练

自我奖励语言模型。自我对齐方法包括两个步骤:(i)自我指导创建:新创建的提示用于从模型Mt生成候选响应,该模型还通过LLM作为评判者提示来预测自己的奖励。 (ii)遵循训练指示:从生成的数据中选择偏好对,并通过DPO进行训练,得到模型Mt+1。整个过程可以迭代,从而改进指示遵循和奖励建模能

自我奖励语言模型的训练过程是一个迭代的过程。在每一轮迭代中,模型会根据上一轮的模型生成新的提示,并根据提示生成候选回复,然后评价模型会给这些回复打分,得到一个新的训练集。接下来,模型会在这个新的训练集上进行训练,产生一个新的模型。这样不断迭代,模型的生成能力和评价能力都会不断提升。

ai人工训练模型,ai垂直领域模型训练

LLM作为评判者提示,使我们的LLM充当奖励模型,并为其自己的模型生成提供自我奖励。该模型最初通过关于如何在此任务上表现良好的种子训练数据进行训练,然后通过我们的自我奖励训练程序进一步提高在此任务上的表现。

LLM作为评判者提示,使我们的LLM充当奖励模型,并为其自己的模型生成提供自我奖励。该模型最初通过关于如何在此任务上表现良好的种子训练数据进行训练,然后通过我们的自我奖励训练程序进一步提高在此任务上的表现。示和回复,并让模型自己评价这些回复,得到一个新的训练集。接下来,使用这个新的训练集对模型进行训练,得到一个新的模型。这样重复3轮迭代,每一轮迭代都能提升模型的生成能力和评价能力。

ai人工训练模型,ai垂直领域模型训练

指示遵循能力通过自我训练得到提升:我们使用在各种提示上的GPT-4对抗胜率来评估我们的模型。自我奖励迭代1(M1)的SFT基线与之相当。然而,迭代2(M2)胜过迭代1(M1)和SFT基线。迭代3(M3)在迭代2(M2)的基础上进一步提升,大幅度胜过M1、M2和SFT基线。

其中迭代训练时,研究团队训练一系列模型 M1,...,MT,其中每个后续模型 t 使用由第 t-1 个模型创建的增强训练数据。因此,他们定义AIFT(Mt)表示使用模型Mt创建的AI反馈训练数据。

模型序列:如下定义模型及其使用的训练数据:

  • M0:基于预训练的LLM,没有微调。
  • M1:在M0的基础上初始化,然后在IFT+EFT种子数据上使用SFT进行微调。
  • M2:在M1的基础上初始化,然后使用DPO训练AIFT(M1)数据。
  • M3:在M2的基础上初始化,然后使用DPO训练AIFT(M2)数据。

实验结果显示,这种方法不仅能显著提升模型的生成能力,也能提升评价能力。比如,在第三轮迭代后,模型在生成回复方面比种子模型提升了62.5%,在评价回复方面也比第一轮提升了8.1%。这说明,通过自我奖励和自我训练,模型能够不断提升自己。

结语

自我奖励语言模型是一种全新的AI训练范式,让AI能够像人类一样,通过自我评价和自我训练实现自我提升。这种方法不仅能够降低人工标注数据的需求,还能让模型在训练过程中不断优化和提升。虽然这种方法还存在一些局限和挑战,比如训练过程中可能会出现的“奖励作弊”等问题,但无疑为AI的自我训练和自我优化提供了新的思路和方法。相信随着技术的不断进步,我们未来一定能看到更加智能、自主的AI系统。

论文地址:https://arxiv.org/abs/2401.10020