SHAP模型可解释性方法:A Unified Approach to Interpreting Model Predictions
Abstract
在许多应用领域中,不仅需要掌握模型产生预测的原因(即预测的解释性),还需同样重视预测的准确性水平。然而,在处理大型现代数据集时发现的现象是:尽管复杂模型(如集成学习或深度学习)能够实现极高的预测精度(accuracy),但即使是领域专家也难以理解其决策机制(interpretability)。这种情况下就形成了准确性和可解释性之间的权衡关系(tension)。
SHAP值方法通过为每个特征赋予权重值来衡量其重要性(contribution)。其核心创新点包括:
(1) 提出了一种新的可加性特征重要性测度集合;
(2) 基于理论分析表明,在这一类别中存在一种能够满足一组理想属性的独特解决方案。
值得注意的是,在最近提出的几种方法中并未完全达到上述的理想属性要求。
基于上述统一视角,
我们提出了一种新型的方法框架,
该框架相比现有方法展现出更高的计算效率,
并/或在与人类直觉的一致性方面表现得更为优秀。
其创新点主要体现在:
(1) 提出了一个新的补充特征重要性度量集合;
(2) 基于理论研究证实,
在这一类别中存在一种能够满足一组理想属性的独特解决方案。
值得注意的是,
在最近提出的几种相关方法中,
大多数方法未能完全满足所提出的理想属性要求 。
基于上述统一研究视角,
我们提出了一种新型的方法框架,
该框架相比现有方法展现出更高的计算效率,
并/或在与人类直觉的一致性方面表现得更为优秀。
Introduction
随着大数据的可用性日益增长,在应用复杂模型方面所获得的优势变得更加显著;然而,在准确性和可解释性之间寻求最佳平衡这一问题愈发重要。最近研究者们提出了多种解决方案[5,8,9,3,4,1]。然而目前尚不清楚这些方法之间如何相互关联以及在何种情况下一种方法可能优于另一种方法。在此背景下,我们提出了一种创新性的统一框架来解析模型预测机制;这一框架不仅带来了三个令人鼓舞的结果(结果一至结果三),还能够帮助理清当前不断扩展的方法发展路径
- 我们视任何对模型预测的解释视为模型自身特性的一部分,并将其定义为"解释模型"。这一做法使我们可以系统性地划分出一组统一的特征归因方法(第2节)。
- 我们证明了基于博弈论得出的一致解适用于所有线性可加特征归因方法(第3节),并建议使用SHAP值作为衡量不同特征重要性统一标准(第4节)。
- 在第5节中,我们开发了一种新的SHAP值估计方法,并验证其在符合人类直觉的同时显著优于现有多种估计技术。
Additive Feature Attribution Methods
对简单系统而言,在寻求最佳诠释时我们不得不依赖于更为简洁明了的方法;这种解法能够充分展现系统的内在机理并且易于理解和接受。
面对复杂系统如集成方法或深度网络等情形时,在寻求最佳诠释时我们不得不依赖于更为简单的替代方案。
相反地,在尝试解析复杂系统时...

基于定义 1 的解释模型不仅能够对每个特征进行效应分析,并且这些分析结果相加后能大致还原原始模型的行为。现有多种方法满足这一条件,在此我们将重点介绍几种典型的方法。
LIME
LIME 方法基于围绕给定预测的局部近似模型来解释各个模型预测 [5]。 LIME 使用的局部线性解释模型完全遵循方程 1,因此是一种加性特征归因方法。
LIME使用的局部线性解释模型完全符合方程1,是一种加性特征归因方法。LIME将简化的输入x称为“可解释输入”,映射x = hx(x)将可解释输入的二进制向量转换为原始输入空间。不同类型的hx映射用于不同的输入空间。
对于单词包文本特征,如果简化输入为1,则hx将1或0(存在或不存在)的向量转换为原始单词计数,如果简化输入为零,则转换为零。对于图像,hx将图像视为一组超级像素;然后将1映射为保留超级像素作为其原始值,将0映射为用相邻像素的平均值替换超级像素(这意味着表示缺失)。
为了求出φ, LIME使以下目标函数最小:

模型g(z)对原始模型f(hx(z))的忠实性是通过使用局部核πx加权后的简化输入空间中的样本集上的损失函数L来实现的。Ω则对模型g的复杂性施加了惩罚。值得注意的是,在LIME方法中,g被构造为满足方程1的形式,并且损失函数L采用平方损失作为度量标准;因此,在这种情况下求解方程2的过程可以通过惩罚性的线性回归方法来进行。
DeepLIFT
DeepLIFT是一种新兴的深度学习递归预测解释方法,在其框架中为每个输入xi分配一个C∆xi∆y指标。该指标量化了当将xi设置为其反向参考值时对输出的影响程度。

设o = f(x),表示模型输出;定义∆o为f(x)与f®的差值;令∆xi等于xi减去ri,并取r作为参考输入。定义φi等于常数C乘以∆xi和∆o的乘积;设φ0等于f®。由此可知,DeepLIFT的解释模型与式1相一致,并构成一种可加性特征归因方法。
Layer-Wise Relevance Propagation
该分层相关传播方法用于解释深度神经网络的行为模式[1]。Shrikumar及其团队指出该方法等同于将所有神经元的参考激活固定为零的方法称为DeepLIFT。进而地,在这种情况下,x = hx(x)实现了从二进制表示到原始输入空间中的映射过程。在这一框架下,基于DeepLIFT的方法所生成的解释模型与上述数学表达式一致。
Classic Shapley Value Estimation
先前的研究采用合作博弈论的经典方程(如Shapley回归值[4]、Shapley采样值[9]以及定量输入影响)来解释模型预测结果:该方法通过为每个特征分配重要性来评估其对模型预测的影响。具体而言,在所有可能的特征子集S上重新训练模型(其中F代表全部特征集合)。随后通过比较包含特定特征i与不包含该特征时的模型预测结果来确定各特征的重要性:即比较fS∪{i}(xS∪{i})与fS(xS)之间的差异(其中xS表示集合S中输入特标的数值)。由于单一特征的重要性受到模型中其他特征组合的影响,在此过程中需遍历所有可能的子集组合(即对于每一个i∈F),并计算上述差异度量的具体数值。最终将这些差异度量按照一定的权重进行加权求和得到最终结果:这就是所谓的Shapley值,并将其作为各属性的重要度量指标。

对于Shapley回归值理论而言,在二进制变量空间中进行映射操作时会引入特定约束条件:即1表示该变量被包含在模型中而0则表示相反的情况。令φ₀ = f_∅(∅),则可得出结论:该理论与式(1)具有完全匹配性特性因而构成了一个加性特征归因方法论的基础架构
Shapley采样值是一种基于概率的方法用于模型解释:具体而言是通过以下两个步骤实现的:首先利用方程(4)进行采样近似计算;其次通过对训练数据集中的样本进行积分处理来模拟从模型中排除某个变量的影响效果
定量输入影响方法则是一个更为广泛且灵活的框架:其核心目标不仅局限于特征归因分析还涵盖了更多复杂的场景分析需求;然而作为其核心组成部分之一它又独立提出了一个几乎等同于Shapley采样值的一种抽样近似计算方法
因此这种量化分析框架同样具备了加性特征归因方法的基本属性
Simple Properties Uniquely Determine Additive Feature Attributions
这一类别具有独特的性质:其中存在一个独特且显著的解决方案(此处将详细阐述其具有的三个关键特质)。这些属性已被经典Shapley值估计方法所熟知;然而,在其他类型的加性特征归属方法中尚未被发现。
首先探讨的第一个关键特质即为局部准确性 。当逼近特定输入x时(即映射至原始输入x),局部准确性要求解释模型必须至少与简化后的输入x’(对应于原始输入x)的f输出保持一致。
Property 1 (Local accuracy)

当x = hx(x’)时,解释模型g(x)与原始模型f(x)匹配,其中φ0 = f(hx(0))表示关闭所有简化输入的模型输出(即:失踪)。
第二个属性是缺失 。 如果简化的输入表示特征存在,则缺失要求原始输入中缺失的特征不会产生影响。 第 2 节中描述的所有方法都遵循缺失属性。
属性2(缺失)

第三个性质是‘一致性的’。
‘一致性的’被定义为:当模型发生改变时,在某些简化输入的贡献增加或保持不变的情况下(无论其他输入如何变化),该特定输入的归因不应减少。
属性3(一致性)
根据定理1,在满足以下条件下只有一种可能的解释模型g能够遵循定义1并同时满足性质1、2和3:

根据组合合作博弈论的结果, 其中φ_i值被称为Shapley值[6]. Young(1985)证明, Shapley值是唯一满足三条公理的价值集合.这些公理类似于第1条、第3条以及我们在当前设置中冗余的一个最终公理(可参见补充材料). 第二条性质要求Shapley论证能够适应于可加性特征归因方法. 在第1条至第3条的前提下, 针对一种简化的输入映射hx, 定理表明仅有一种可能的附加特征归因方法. 这一结果表明仅依赖于Shapley值的方法可能会违背局部准确性和/或一致性(如第二部分所述的方法已考虑了缺失项). 下述部分将提出一种整合前人工作的统一方案, 防止它们无意间违反第一条和第三条性质.
SHAP (SHapley Additive exPlanation) Values

图 1 展示 SHAP 值的作用机制:它将每个特征对应于调整该特征时预期模型预测的变化量。具体而言, SHAP 值旨在说明如果缺乏对当前输出 f(x) 各个特征的理解,则如何从预测的基础值 E[f(z)] 中推断出各个特性的贡献程度. 此图展示了单一排序模式. 然而,在面对非线性模型或输入特征求独立性的问题时,直接应用顺序的重要性可能会导致计算上的困难. 尽管精确计算SHAP值的方法相对复杂,但通过结合当前附加特征归因方法的见解,我们可以开发出有效的近似算法. 我们描述并验证了几种通用近似方法:其中一种是已知的传统采样法 (Shapley 采样),另一种则是基于核函数的新颖方法 (Kernel SHAP). 此外,我们还针对特定类型的模型提出了几种新型近似方法,其中包括Max SHAP和Deep SHAP两种新方法. 在这些近似方案中,我们假设输入特征求独立性和/或模型呈现线性特性以简化计算过程(请注意,S表示所有不属于集合S 的变量)

在逼近条件期望的过程中,在基于我们对模型运行机制的理解以及现有文献研究的基础上(如参考文献[9,5,7,3]所示),则可采用Shapley采样值方法或与其等价的定量输入影响法来直接计算SHAP值。这些方法均采用经典Shapley值方程(方程8)中排列版本的采样近似策略,并分别对每个特征属性进行单独抽样估算。尽管对于小规模输入而言这种计算方式是可行且直观的方式,在后续章节中将介绍的核心SHAP方法则通过减少对原始模型评估次数而实现相近程度的结果(见第五节)。
Kernel SHAP (Linear LIME + Shapley values)
线性 LIME 是通过线性解释模型在简化二进制输入空间中的局部区域来近似 f 的方法。
从直观上看,方程 2 中的 LIME 回归公式似乎与方程 8 中的经典 Shapley 值公式存在显著差异。
定理 2(Shapley 核)基于定义 1,在此定义下能够满足方程 2 所需解的形式由 πx、L 和 Ω 组成。

其中||z’||_0表示向量z’中非零元素的数量。
线性回归与Shapley值之间的直观联系体现在方程8为均值差上。由于平均值被视为一组数据点的最佳最小二乘点估计,在分析过程中自然倾向于通过加权内核方法来构建这种联系。这一发现表明所提出的加权核方法与基于启发式的传统方法存在显著差异(见图)。
Model-Specific Approximations
虽然内核 SHAP 提高了与模型无关的 SHAP 值估计的样本效率,但通过将我们的注意力限制在特定模型类型上,我们可以开发更快的特定于模型的近似方法。
Linear SHAP
对于线性模型,如果我们假设输入特征独立(公式 11),则可以直接根据模型的权重系数来近似 SHAP 值.

基于定理 2 的线性回归计算复杂度为 O(2M + M^3) 的情况下,在较小的 M 值下采用条件期望的近似值(公式 11 或 12)则更为合理

图2:(A) 当所有可能的z向量被按照基数排序排列时,其Shapley核心权重呈现出对称性(具体案例中共包含215个向量)。这与以往基于启发式的核选择方案存在显著差异。(B)由众多基础组件构成的一类复杂系统类似于深度神经网络等组合模型。基于组件Shapley值解析解的方法能够通过反向传播机制高效逼近整体模型行为
Max SHAP
通过Shapley值计算方式及排列组合公式可精确衡量各输入变量对结果的影响程度。 按照特定顺序排列输入变量后可显著提升算法效率,在O(M²)时间内替代原先O(M²M)的时间复杂度实现多变量max函数求解。 此外,请参阅补充材料获取完整算法细节。
Deep SHAP(基于DeepLIFT与Shapley值)
该方法通过线性化反向传播规则实现直观解释的同时却存在主观性选择问题。 虽然DeepLIFT是一种满足局部准确性和全局可解释性的特征重要性评估方法但其无法直接体现统一性原则下的最优解因此Shapley值成为唯一符合条件的选择依据这一发现促使我们尝试将DeepLIFT改造为基于Shapley值得组合近似方案从而得到Deep SHAP方法。

Computational and User Study Experiments
我们通过 Kernel SHAP 和 Deep SHAP 近似方法对 SHAP 值的优势进行了分析。 首先, 我们对比了 Kernel SHAP 与其他特征重要性分配方法, 包括 LIME 和 Shapley 采样值, 在计算效率和准确性方面的表现。 其次, 我们设计了用户研究, 将SHAP 值与 DeepLIFT 等替代特征重要性分配方法进行了系统对比。 实际结果表明,SHAP 值在满足属性 1-3(第 2 节)方面表现出更强的人类直觉一致性。 最后, 我们利用 MNIST 数字图像分类任务展示了 SHAP 方法在实际应用中的优势
在定理 2 的基础上,Computational Efficiency方面,Consistency with Human Intuition方面,Explaining Class Differences方面,Computational Efficiency方面,Consistency with Human Intuition方面,Explaining Class Differences


图 5:解释在 MNIST 数字数据集上训练的卷积网络的输出。 原始。 DeepLIFT 没有明确的 Shapley 近似值,而 New DeepLIFT 寻求更好地近似 Shapley 值。 (A) 红色区域增加该类别的概率,蓝色区域减少该类别的概率。 Masked 会删除像素,以便从 8 个像素变为 3 个像素。 (B) 屏蔽超过 20 个随机图像时对数几率的变化支持使用更好的 SHAP 值估计。
Conclusion
在模型预测准确性与可解释性日益密切的关系推动下,相关研究者致力于开发出辅助用户理解预测结果的方法。SHAP框架通过系统地分类附加特征重要性评估方法(其中包含以往提出的六种方法),揭示了一个符合理论要求的独特解决方案的存在。SHAP贯穿文献研究的一条显著线索,不仅展示了现有研究在模型解释方面的共同基础,也为未来研究提供了重要的理论指导方向。研究团队提出了一种基于SHAP值的不同估计方法,并通过理论证明和实验验证其优越性。展望未来,值得探索的方向包括开发更为高效的具体实现技术、弱化现有假设条件、整合博弈论视角下的交互效应分析以及构建新的解释模型框架等
