什么是大模型幻觉?应该如何解决?
创始人
2024-06-27 16:42:19
0

自从大模型发布后,幻觉问题就一直如影随形没能得到妥善的解决。这篇文章,作者就分析了大模型幻觉的原因和解决方法,供大家参考。

一、什么是大模型幻觉?

语言模型的幻觉(Hallucination)指的是模型生成了不符合事实或毫无根据的信息。这种现象在自然语言处理(NLP)任务中尤其常见,如机器翻译、文本生成和问答系统。

比如:用户问模型:“秦始皇为什么喜欢用苹果手机,为什么不喜欢用安卓手机呢?”

在还没有训练的很完善的大模型就可能会出现一本正经的回答关于秦始皇喜欢用什么手机的问题,也就是我们常说的“一本正经的胡说八道”。这就是大模型产生的幻觉。

那么大模型的幻觉是怎么来的?我们应该如何解决呢?

二、大模型幻觉是怎么来的

大模型的幻觉主要来自三个方面:

1)训练数据的局限性

当我们深入研究大模型的训练流程时,我们会发现,数据是最关键的。在预训练阶段,我们无法控制数据的来源,因为网上充满了随机网页内容,很多内容可能并不准确,我们无法完全清洗这些数据,只能尽量让语言更加通顺。

而在sft阶段时,当训练数据中可能包含错误信息或诱导信息时,这些信息在模型生成时可能被误用。另外一个,从数据覆盖范围来说,训练数据可能不完全覆盖所有的事实或领域,导致模型在生成特定信息时缺乏足够的背景知识。

2)大模型对自己高估

这主要是因为模型在预测 next token 的概率时,本质上是在处理数据分布的问题,对于非常大的 LLMs 来说,正确答案和错误答案的分布熵可能是相似的,LLM 在生成错误答案时和生成正确答案时同样自信。

另外,模型具有短期记忆,在模型在生成长文本时,可能无法完全记住并正确应用之前提到的所有信息,导致信息不一致或错误。有时,模型也可能会被上下文误导,生成与上下文相关但不真实的信息。

3)模型架构和训练方法

大语言模型的训练的最初期的目的是生成流畅和连贯的文本,而不是确保事实的准确性。所以模型可能就会生成符合语言习惯但不符合实际情况的内容。同理,尽管大语言模型可以处理大量数据,这也使它们并不具备真正的常识推理能力,不能像人类一样进行逻辑验证。就需要大量的标注人员去训练他们使他们能够准确的进行推理和保证事实的准确性。

三、大模型幻觉如何解决

大模型自生产出来之后,幻觉就是一直出现的问题。大模型的幻觉,极大的影响了用户对于大模型以及大模型产品的信任程度,能否成功解决幻觉问题以及能够在多大程度上缓解这个问题,都与大模型实际应用的深度和广度紧密相关。

在sft阶段,解决大模型幻觉的方式就是:

第一,增加样本数据和多样性,让更多样的样本可以为模型提供更全面、更准确的背景知识,使其在生成回答时能够参考更广泛的信息源,从而减少生成幻觉的概率。

第二,提高泛化能力,多样性的样本可以帮助模型学习不同的语境和表达方式,增强其在不同场景下的泛化能力,减少因特定样本偏差导致的错误。

第三,减少偏见,多样的样本有助于减少模型的偏见,确保其在面对各种问题时能够做出更公平和准确的回答。

当然大模型的幻觉的解决并不是一蹴而就的事情,他需要我们长期的优化和训练。但要完全解决这一问题,还需要多方面的改进和努力。

本文由 @贝琳_belin 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

相关内容

热门资讯

工信部:支持研发专业性高、落地... 央广网北京6月10日消息(记者 黄昂瑾)近日,工业和信息化部印发《“人工智能+信息通信”创新发展实施...
华通精密取得FPCA测试治具专... 国家知识产权局信息显示,华通精密线路板(惠州)股份有限公司取得一项名为“一种FPCA测试治具”的专利...
原创 红... 随着手游与应用不断升级,高配置、高性能的机型越来越多,比如红米K90系列、荣耀WIN系列、iQOO ...
科和盛业取得磁控溅射布气装置专... 国家知识产权局信息显示,深圳市科和盛业技术有限公司、东莞市科盛机电设备有限公司取得一项名为“一种磁控...
科创001丨近1300万份报告... 深圳商报·读创客户端首席记者 陈小慧 文/图 “2025年我们累计为考⽣⽣成了近1300万份报告。这...
原创 为... 郭靖称得上是金庸笔下塑造得最为成功的一个角色。 他不仅仅是在武林中惩奸除恶的侠客,更是心系天下苍生的...
“西安麻辣烫女孩”,为啥不是一... 作 者 | 小林 来 源 | 雷叔写故事 01 李月亮☽ 可能你已经听过“西安麻辣烫女孩”的故事了。...
用“意外”衡量安全:Waymo... 6 月 10 日消息,Waymo 今日在《自然 · 通讯》上发表了一篇研究论文,介绍了一个名为 Re...
美丽中国行|川陕大熊猫为何不“... 陕西秦岭大熊猫被誉为“国宝中的美人”,相比四川的大熊猫,秦岭大熊猫更像猫,也更原始。 秦岭大熊猫佛...
花溪剑桥中学:这群少年,为何毕... 初夏的风裹着香樟香,贵阳市花溪区剑桥中学,又迎来了一批特殊的“归客”。 他们是曾经的剑桥少年,如今带...