EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS
发布时间
阅读量:
阅读量
该文章作为LLM系列内容的一部分,基于《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。
中文大语言模型的幻觉评价
- 摘要
- 1 引言
- 2 HALLUQA基准
- 3 实验
- 4 讨论
- 5 相关工作
- 6 结论
摘要
在本文中,我们开发了一个名为HalluQA (Chinese Hallucination question - answers)的基准系统,用于系统性评估中文大型语言模型中的幻觉特征。该基准系统包含450个精心设计的对抗性问题,涵盖多个领域,并融合了中国的历史文化、习俗和社会现象。在构建HalluQA的过程中,我们基于GLM-130B和ChatGPT模型生成了对抗性样本。为了检测模型输出中的幻觉现象,我们开发了一种基于GPT-4的自动评估机制,用于判断模型输出是否存在幻觉。通过对ERNIE-Bot、百川2、ChatGLM、Qwen、SparkDesk等24个大型语言模型进行系统性评估,我们发现,18个模型的无幻觉率均低于50%。这表明HalluQA系统在评估模型幻觉能力方面具有较高的鉴别力。我们深入分析了不同类型模型中幻觉的主要类型及其成因,并探讨了各类模型在幻觉处理上的优先策略。
1 引言
2 HALLUQA基准
3 实验
4 讨论
5 相关工作
6 结论
在本研究中,我们开发了一个名为HalluQA的中文幻觉问答数据集,旨在评估中文大型语言模型中的幻觉现象。通过HalluQA,可以评估模型对假话和事实性错误的处理能力。我们开发了一种基于LLM的自动化评价方法,并验证了其有效性。在24个大型语言模型上进行了系统实验,结果显示所有模型在HalluQA上的非幻觉率均低于70%,这表明HalluQA数据集具有较高的挑战性。通过实验结果,我们深入分析了不同模型的初级幻觉类型,并探讨了优先解决的类型。我们希望HalluQA能够为减少中文大型语言模型中的幻觉问题提供参考,从而提升模型的可信度。
全部评论 (0)
还没有任何评论哟~
