EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

阅读量：

该文章作为LLM系列内容的一部分，基于《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。

中文大语言模型的幻觉评价

摘要
1 引言
2 HALLUQA基准
3 实验
4 讨论
5 相关工作
6 结论

摘要

在本文中，我们开发了一个名为HalluQA (Chinese Hallucination question - answers)的基准系统，用于系统性评估中文大型语言模型中的幻觉特征。该基准系统包含450个精心设计的对抗性问题，涵盖多个领域，并融合了中国的历史文化、习俗和社会现象。在构建HalluQA的过程中，我们基于GLM-130B和ChatGPT模型生成了对抗性样本。为了检测模型输出中的幻觉现象，我们开发了一种基于GPT-4的自动评估机制，用于判断模型输出是否存在幻觉。通过对ERNIE-Bot、百川2、ChatGLM、Qwen、SparkDesk等24个大型语言模型进行系统性评估，我们发现，18个模型的无幻觉率均低于50%。这表明HalluQA系统在评估模型幻觉能力方面具有较高的鉴别力。我们深入分析了不同类型模型中幻觉的主要类型及其成因，并探讨了各类模型在幻觉处理上的优先策略。

1 引言

2 HALLUQA基准

3 实验

4 讨论

5 相关工作

6 结论

在本研究中，我们开发了一个名为HalluQA的中文幻觉问答数据集，旨在评估中文大型语言模型中的幻觉现象。通过HalluQA，可以评估模型对假话和事实性错误的处理能力。我们开发了一种基于LLM的自动化评价方法，并验证了其有效性。在24个大型语言模型上进行了系统实验，结果显示所有模型在HalluQA上的非幻觉率均低于70%，这表明HalluQA数据集具有较高的挑战性。通过实验结果，我们深入分析了不同模型的初级幻觉类型，并探讨了优先解决的类型。我们希望HalluQA能够为减少中文大型语言模型中的幻觉问题提供参考，从而提升模型的可信度。

全部评论 (0)

还没有任何评论哟~

EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

本文是LLM系列文章，针对《EVALUATINGHALLUCINATIONSINCHINESELARGELANGUAGEMODELS》的翻译。中文大语言模型的幻觉评价摘要 1引言 2HALLUQA...

AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models

本文是LLM系列文章，针对《ACEVAL:EvaluatingAncientChineseLanguageUnderstandinginLargeLanguageModels》的翻译。

Evaluating the Generation Capabilities of Large Chinese Language Models

文章目录题目摘要相关工作 CGEval 实验题目评估大型中文语言模型的生成能力论文地址：https://arxiv.org/abs/2308.04823 项目地址：http://cgeva...

ANAH: Analytical Annotation of Hallucinations in Large Language Models

本文是LLM系列文章，针对《ANAH:AnalyticalAnnotationofHallucinationsinLargeLanguageModels》的翻译。

FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models

本文是LLM系列文章，针对《FoundaBench:EvaluatingChineseFundamentalKnowledgeCapabilitiesofLargeLanguageModels》的翻译...

Cognitive Mirage: A Review of Hallucinations in Large Language Models

本文是LLM系列文章，针对《CognitiveMirage:AReviewofHallucinationsinLargeLanguageModels》的翻译。

Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models

本文是LLM系列文章，针对《InteractiveDualCheckerforMitigatingHallucinationsinDistillingLargeLanguageModels》的翻译。

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

本文是LLM系列文章，针对《CLongEval:AChineseBenchmarkforEvaluatingLongContextLargeLanguageModels》的翻译。

Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models

本文是LLM系列文章，针对《BeyondProbabilities:UnveilingtheMisalignmentinEvaluatingLargeLanguageModels》的翻译。

Evaluating Declarative and Procedural Knowledge in Datasets and Large Language Models

本文是LLM系列文章，针对《MetaCognitiveAnalysis:EvaluatingDeclarativeandProceduralKnowledgeinDatasetsandLargeLan...

是否确定退出登录?

EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

中文大语言模型的幻觉评价

摘要

1 引言

2 HALLUQA基准

3 实验

4 讨论

5 相关工作

6 结论

全部评论 (0)

相关文章推荐

EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large Language Models

Evaluating the Generation Capabilities of Large Chinese Language Models

ANAH: Analytical Annotation of Hallucinations in Large Language Models

FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models

Cognitive Mirage: A Review of Hallucinations in Large Language Models

Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models

Evaluating Declarative and Procedural Knowledge in Datasets and Large Language Models