THE HUMAN FACTOR IN DETECTING ERRORS OF LARGE LANGUAGE MODELS

阅读量：

This is a comprehensive review in the LLM series, specifically translated as an introduction to The Human Factor in Detecting Errors of Large Language Models: A Systematic Literature Review and Future Research Directions.

在大型语言模型的错误检测技术中存在显著的人为干预因素：本研究系统性综述了现有研究，并对未来研究方向进行了深入探讨

摘要
1 引言
2 方法
3 研究范围
4 主题概念化
5 文献研究
6 文献分析与综合
7 讨论

摘要

在2022年11月时，OpenAI发布了ChatGPT系统

1 引言

2 方法

3 研究范围

4 主题概念化

5 文献研究

6 文献分析与综合

7 讨论

综合显示，LLM的使用，以及通过发生LLM错误而使用LLM的缺点，目前在医疗保健/医学领域讨论最多，因为当医疗状况被误诊或虐待时，错误的LLM创建的医疗建议可能对人类有害。这在神经外科等高级医学专业中尤其重要。综合表明，LLM错误通常是一个需要解决的问题，并证实了LLM错误的两种普遍类型——错误事实的幻觉和相关事实的遗漏，这两种类型在所有分析的论文中都进行了研究。处理幻觉、遗漏和错误的机制应纳入LLM系统。综合表明，目前的一些研究偏向于讨论第一种LLM错误类型（幻觉–16篇论文），而不是第二种（遗漏–8篇论文）。自2023年以来，通过质量测试LLM误差来解决LLM误差问题是一个活跃的研究领域，其重要性也越来越高，这表明该主题的论文数量“爆炸式增长”。目前，LLM质量绝大多数是由人工在环方法测试的，尽管存在ROUGE-L、METEOR或BLEU等较旧但可自动化的方法。对于人在环方法，建议采用行为科学方法，为“人类与人工智能”提供新的见解。没有现成的自动评估指标专门用于评估LLM系统生成的响应的真实性。一种潜在的方法是开发能够检测并自动纠正错误的算法。一种这样的新方法是RelD，这是一种专门用于评估LLM质量的ML模型，建立在专门的RelQA数据集设计之上。

全部评论 (0)

还没有任何评论哟~

THE HUMAN FACTOR IN DETECTING ERRORS OF LARGE LANGUAGE MODELS

本文是LLM系列文章，针对《THEHUMANFACTORINDETECTINGERRORSOFLARGELANGUAGEMODELS:ASYSTEMATICLITERATUREREVIEWANDFUT...

【Towards Human-Free Active Learning in the Era of Large Language Models--FreeAL】

文章目录前言一、核心内容二、代码解析 1.main次要解析 2\.mytrainer主要解析 1\.导入必要的库和模块 2\.定义线性上升函数 3\.自定义训练器类 4\.训练循环 5\.损失计...

Large Language Models in Cybersecurity: State-of-the-Art

本文是LLM系列，针对《LargeLanguageModelsinCybersecurity:StateoftheArt》的翻译。网络安全中的大型语言模型：最新进展摘要 1引言 2背景 3LLM的...

Analyzing the Role of Semantic Representations in the Era of Large Language Models

本文是LLM系列文章，针对《AnalyzingtheRoleofSemanticRepresentationsintheEraofLargeLanguageModels》的翻译。

EXPLORING THE POTENTIAL OF LARGE LANGUAGE MODELS IN GRAPH GENERATION

本文是LLM系列文章，针对《EXPLORINGTHEPOTENTIALOFLARGELANGUAGEMODELSINGRAPHGENERATION》的翻译。

Recommender Systems in the Era of Large Language Models (LLMs)

本文是LLM系列文章，针对《RecommenderSystemsintheEraofLargeLanguageModelsLLMs》的翻译。大语言模型时代的推荐系统摘要 1引言 2相关工作 3基于...

Detecting Bias in Large Language Models: Fine-tuned KcBERT

本文是LLM系列文章，针对《DetectingBiasinLargeLanguageModels:FinetunedKcBERT》的翻译。检测大型语言模型中的偏差：微调KcBERT 摘要 1引言 2...

A Survey of Text Watermarking in the Era of Large Language Models

本文是LLM系列文章，针对《ASurveyofTextWatermarkingintheEraofLargeLanguageModels》的翻译。大语言模型时代的文本水印综述摘要 1引言 2文本水...

Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation

本文是LLM系列文章，针对《LostintheSourceLanguage:HowLargeLanguageModelsEvaluatetheQualityofMachineTranslation》的...

Graph Machine Learning in the Era of Large Language Models (LLMs)

本文是LLM系列文章，针对《GraphMachineLearningintheEraofLargeLanguageModelsLLMs》的翻译。大模型时代的图机器学习摘要 1引言 2相关工作 3图...

是否确定退出登录?

THE HUMAN FACTOR IN DETECTING ERRORS OF LARGE LANGUAGE MODELS

摘要

1 引言

2 方法

3 研究范围

4 主题概念化

5 文献研究

6 文献分析与综合

7 讨论

全部评论 (0)

相关文章推荐

THE HUMAN FACTOR IN DETECTING ERRORS OF LARGE LANGUAGE MODELS

【Towards Human-Free Active Learning in the Era of Large Language Models--FreeAL】

Large Language Models in Cybersecurity: State-of-the-Art

Analyzing the Role of Semantic Representations in the Era of Large Language Models

EXPLORING THE POTENTIAL OF LARGE LANGUAGE MODELS IN GRAPH GENERATION

Recommender Systems in the Era of Large Language Models (LLMs)

Detecting Bias in Large Language Models: Fine-tuned KcBERT

A Survey of Text Watermarking in the Era of Large Language Models

Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation

Graph Machine Learning in the Era of Large Language Models (LLMs)