Not All Language Model Features Are Linear
本文属于LLM系列文章的一篇译作,基于《Not All Language Model Features Are Linear》
并非所有语言模型特征都是线性的
- 摘要
- 引言部分
- 相关领域的研究
- 基本概念与理论框架
- 稀疏自动编码器在多维特征提取方面表现出显著的能力
- 大型语言模型中的循环结构分析
- 讨论
摘要
最近的研究工作深入探讨了线性表示假说:语言模型通过调节激活空间中抽象概念("特征")的一维数学表示来进行信息处理。与此相对的是我们对现有语言模型潜在表征存在的多维结构这一问题展开了一系列研究探索。基于对不可约多维特征的具体定义——即其无法分解为独立低维特征或不同时出现的情况——我们系统地构建了一种可扩展的方法论框架:该框架利用稀疏自动编码器从GPT-2和Mistral 7B等大型预训练语言模型中自动提取潜在的空间分布模式作为多维特征代表性样本库。这些自动识别出的关键特征不仅具备高度可解释性——例如能够清晰反映一周中的每一天以及一年中的每一个月份等周期性变化规律——还被成功应用于一系列涉及模运算任务的研究场景中:包括判断某一天是星期几、确定某个月份在全年的周期位置等问题建模与求解任务的设计与实现过程中我们系统地评估了基于循环特性的计算能力及其在不同模运算条件下的适用性表现最终通过系统性干预实验验证了这一发现:即这种精确识别出能够处理这类模运算的任务的基本计算单元确实存在于相关语言模型架构之中。
1 引言
2 相关工作
3 定义和理论
4 稀疏自动编码器查找多维特征
5 大型语言模型中的循环表示
6 讨论
我们的一项工作对简单的一维线性表示假设进行了重要改进。先前的工作已通过有力证据表明了一维特征的存在性;然而我们发现了不可分离、不可约的多维表示证据这一发现要求我们将特征概念向更高维度推广。幸运的是我们发现现有的特征提取技术如稀疏自动编码器可轻松应用于发现多维表示尽管这些多维表示可能更具复杂性但我们相信揭示模型表示真实(可能是多维)性质仍能有助于发现利用这些表示实现底层算法的方法最终我们的目标是将未来更强模型中的复杂线路转化为可正式验证程序的过程我们相信这项工作已迈出了关键一步尽管如此目前仍存在疑问:为什么我们未能找到更多可解释性的多维特征?是缺乏数量还是聚类技术未能识别出它们?此外基于定义2对不可约特征的严格定义必须放宽以维持定义3这一放宽定义的目的在于为假说2即"多维度叠加假设"提供初步支持但目前尚不清楚该假说是否能有效描述模型使用的表征问题此外我们并未识别出用于实现"时钟"算法的人工神经网络MLP单元中的一部分这留下了一个未解之谜:在执行算法任务时模型到底有多大比例地采用了高维度表征最后我们在8B规模以下的模型上进行了实验而最近研究表明随着模型规模增长表征可能变得更加普遍
