Advertisement

EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

阅读量:

该文章作为LLM系列内容的一部分,基于《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。

中文大语言模型的幻觉评价

  • 摘要
  • 1 引言
  • 2 HALLUQA基准
  • 3 实验
  • 4 讨论
  • 5 相关工作
  • 6 结论

摘要

在本文中,我们开发了一个名为HalluQA (Chinese Hallucination question - answers)的基准系统,用于系统性评估中文大型语言模型中的幻觉特征。该基准系统包含450个精心设计的对抗性问题,涵盖多个领域,并融合了中国的历史文化、习俗和社会现象。在构建HalluQA的过程中,我们基于GLM-130B和ChatGPT模型生成了对抗性样本。为了检测模型输出中的幻觉现象,我们开发了一种基于GPT-4的自动评估机制,用于判断模型输出是否存在幻觉。通过对ERNIE-Bot、百川2、ChatGLM、Qwen、SparkDesk等24个大型语言模型进行系统性评估,我们发现,18个模型的无幻觉率均低于50%。这表明HalluQA系统在评估模型幻觉能力方面具有较高的鉴别力。我们深入分析了不同类型模型中幻觉的主要类型及其成因,并探讨了各类模型在幻觉处理上的优先策略。

1 引言

2 HALLUQA基准

3 实验

4 讨论

5 相关工作

6 结论

在本研究中,我们开发了一个名为HalluQA的中文幻觉问答数据集,旨在评估中文大型语言模型中的幻觉现象。通过HalluQA,可以评估模型对假话和事实性错误的处理能力。我们开发了一种基于LLM的自动化评价方法,并验证了其有效性。在24个大型语言模型上进行了系统实验,结果显示所有模型在HalluQA上的非幻觉率均低于70%,这表明HalluQA数据集具有较高的挑战性。通过实验结果,我们深入分析了不同模型的初级幻觉类型,并探讨了优先解决的类型。我们希望HalluQA能够为减少中文大型语言模型中的幻觉问题提供参考,从而提升模型的可信度。

全部评论 (0)

还没有任何评论哟~