精细解析LLM幻觉:一场人工智能的细粒度挑战

最近,Akari Asai博士在X平台上提出一个引人注目的问题:“我们总是抱怨语言模型生成的‘幻觉’,但它们究竟是什么?”接着,她带我们探索了一项自动细粒度幻觉检测的研究,该研究基于新颖的分类法、标准和7B的语言模型(LM),在幻觉检测和编辑方面超越了ChatGPT。

精细解析LLM幻觉:一场人工智能的细粒度挑战

论文地址:https://arxiv.org/abs/2401.06855

一、大规模语言模型与"幻觉"

首先,让我们理解一下所谓的"幻觉":当我们使用大规模语言模型(LLM)生成文本时,模型可能会生成与真实世界情况不符的内容,我们称之为"幻觉"。近期,这种在LLM中广泛存在的"幻觉"现象引发了大量关于怎样构建自动检测"幻觉"的系统的讨论。然而,目前的研究重点主要集中在将其视为二元标签任务(即粗粒度检测)或主要关注可以使用局部上下文修复的错误(例如实体错误)。

精细解析LLM幻觉:一场人工智能的细粒度挑战

二、新颖挑战:细粒度幻觉检测和编辑

Akari Asai博士及其团队的工作引入了一种新的挑战,即自动细粒度幻觉检测与编辑。这个研究目标是在更细粒度的水平上检测“幻觉”,并提供文本中的精确子跨度、错误类型和潜在改善方向。

精细解析LLM幻觉:一场人工智能的细粒度挑战

三、独特的分类法和数据收集

该研究首先提供了一种独特的分类法,这种分类法以层次方式对信息查找环境下的不同类型的事实性幻觉进行分类,并对ChatGPT和LLama2 65B在多个领域的查询输出进行了深入注释。

精细解析LLM幻觉:一场人工智能的细粒度挑战

在LLama2的输出中,平均有75% 在Chat GPT的输出中,有60%被认定为"幻觉",表明了不同类型的"幻觉"确实存在。此外,以上述模型生成的"幻觉"在不同领域和LLM中的分布也存在差异,这突出了研究和检测此类多样性的迫切需要。

四、FAVA模型的初步研究表现

在初步研究中,研究团队发现ChatGPT在细粒度检测上面临挑战,这使他们意识到训练数据注释的重要性。由此,他们训练了一个基于精心设计的迭代流程生成的合成数据的新的7B检索增强语言模型(FAVA)。

精细解析LLM幻觉:一场人工智能的细粒度挑战

在自动和人工评估的细粒度和粗粒度检测任务以及错误改善方面,7B FAVA均优于ChatGPT(带有和不带有检索)。然而,捕捉需要全局上下文的错误仍具有挑战性。

精细解析LLM幻觉:一场人工智能的细粒度挑战

五、试用

FAVA模型可以在Hugging Face平台上试用。

试用地址:https://huggingface.co/spaces/fava-uw/fava

下面这个例子中,FAVA检测到:

  • 可以通过本地上下文修复的简单实体错误
  • 奖项看似合理但实际并不存在
  • 主观的陈述

当然,FAVA模型并不完美,研究团队欢迎广大用户提供反馈。

精细解析LLM幻觉:一场人工智能的细粒度挑战