Bias and Fairness in Large Language Models: A Survey
本文专为LLM系列文章而作,旨在对《Bias and Fairness in Large Language Models: A Survey》进行翻译。
大型语言模型中的偏见与公平性研究
- 摘要部分
- 引言部分
- 第一部分:LLM偏见与公平的形式化
- 第二部分:偏见评价指标的分类
- 第三部分:偏见评价数据集的分类
- 第四部分:缓解偏见的技术分类
- 第五部分:开放问题和挑战
- 结论部分
摘要
大型语言模型(LLM)的迅速发展使得处理、生成和理解人文本的能力得以实现,并已广泛地集成到影响我们社会生活的各种系统中。尽管这些技术取得了显著成效,但它们可能延续或放大存在于社会中的偏见和不公。本文旨在系统性地探讨LLM偏见的评估与缓解技术。我们首先旨在巩固、形式化并扩展自然语言处理领域中社会偏见和公平性的概念,从不同维度定义偏见的具体表现,并提出实现LLM公平性的必要条件。接着,我们通过构建三种分类框架来系统化现有文献,其中两种框架用于偏见评估,即指标分类和数据集分类,第三种框架则用于偏见缓解。在指标分类方面,我们设计了一种消除了指标与评估数据集之间关系的分类方法,并根据指标在模型运行的不同层次(如嵌入层、概率层和生成层)进行分类。在数据集分类方面,我们将其分为反事实输入和提示类型,并明确了目标偏见和社会群体。此外,我们还发布了整合后的公共可用数据集,以提升研究的可及性。在缓解偏见的技术分类方面,我们从预处理、训练、处理和后处理四个阶段进行了分类,并通过细化的子类别明确了当前研究的趋势。最后,我们识别了未来研究中面临的主要问题和挑战。通过系统梳理近期研究,我们旨在为LLM偏见治理提供清晰的指南,帮助研究人员和从业者更好地理解和防范LLM中偏见的传播。
1 引言
2 LLM偏见与公平的形式化
3 偏见评价指标的分类
4 偏见评价数据集的分类
5 缓解偏见的技术分类
6 开放问题和挑战
7 结论
我们系统性地梳理了LLM偏见评估与缓解相关技术的文献综述,整合了大量研究以展望未来研究方向。在深入分析自然语言处理中的社会偏见问题后,我们不仅明确了语言表达中的社会偏见类型,还制定了LLM公平性评估的基本准则。通过构建独特的分类框架,我们对评估指标与数据集关系、数据集结构特征,以及缓解技术干预阶段进行了深入探讨。具体而言,我们从三个维度构建了分类框架:评估指标与数据集关系、数据集结构特征,以及缓解技术干预阶段。在评估指标分类方面,我们根据不同评估指标所涉及的数据类型,将其划分为数据类型驱动的分类指标和数据类型中立的分类指标两大类。在数据集分类方面,我们主要依据数据集的组织方式和数据类型特点,将其划分为结构化数据集、非结构化数据集以及混合数据集三大类。在缓解技术分类方面,我们则根据干预阶段的不同,将其划分为先验干预、中间干预和后验干预三大类。通过这种多维度的分类方法,我们能够更清晰地理解各类技术之间的异同特点。最后,我们提出了若干研究前沿问题,旨在为后续研究提供方向性指导。
