Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models‘ Alignment
本文属于大模型领域相关文章,基于该论文《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment》的翻译。
值得信赖的LLMs:评估大型语言模型对齐性的综述和指南
- Abstract
- Introduction
- Background
- Classification Overview
- Robustness
- Security
- Fairness
- Abuse Resistance
- Explainability and Reasoning
- Social Norms
- Resilience
- Case Studies: Design and Results
- Conclusion and Challenges
摘要
在部署大型语言模型(LLM)至现实世界应用程序之前,必须确保一致性,这已成为一项关键任务。例如,OpenAI在GPT-4发布前耗时六个月进行迭代校准。然而,从业者在评估LLM输出是否符合社会规范、价值观和法规方面缺乏明确的指导,这一障碍阻碍了LLM的系统迭代和部署。为了解决这一问题,本文对评估LLM可信度的关键维度进行了全面综述。该综述全面涵盖了LLM可信度的七个主要类别:可靠性、安全性、公平性、抗滥用性、可解释性和推理性、遵守社会规范和稳健性。每个主要类别进一步划分为若干子类别,共计29个子类别。此外,研究者选择性地对8个子类别进行了深入调查、设计并针对几种广泛应用的LLM进行了详细研究和测量。研究结果表明,通常情况下,一致性较强的模型在整体可信度上表现更为突出,但不同可信度类别中一致性的作用程度各不相同。这凸显出需要进行更细致的分析、测试和持续改进LLM对齐的重要性。通过系统阐述这些关键维度,本文旨在为该领域从业者提供有价值的见解和指导。解决这些问题对于实现LLM在各种应用中的可靠和道德部署至关重要。
1 引言
2 背景
3 分类概述
4 可靠性
5 安全性
6 公平性
7 抗滥用性
8 可解释性和推理
9 社会规范
10 健壮性
11 样例:设计和结果
12 结论和挑战
在本文中,我们研究了LLM在对齐方面成为可信度研究的核心问题。通过构建一个系统性的分类框架,我们旨在解决LLM对齐一致性问题。通过系统性回顾现有研究,我们识别出若干关键问题,这些发现为我们提供了进一步探索的方向。我们提出的分类法为后续研究奠定了基础,重点在于选择一组具有代表性的维度进行详细研究。这些研究使我们能够构建一个数据集,用于促进LLM对比对指标的自动化评估。
