可解释性lime
辨别信任的两个不同但相互关联的概念至关重要:
(1)预测可靠性是指个体对单个预测结果有足够的信心从而能够据此采取相应决策;
(2)模型可信度则指个体对于模型在实际部署中按照预期流程运行的能力感到放心。
这篇文章探讨了将单个预测纳入考虑范围内的方案,并将其视为"信任预测"问题的一种解决方法。进一步采用这些方案及其对应的分析结果,在构建"信任模型"时提供了有效的参考依据。具体而言,我们主要完成了以下几项工作
LIME是一种算法基于可解性模型对分类器或回归器进行局部线性近似从而具有高度透明度地解析其工作原理
另一种基于子模块的优化方法用于选择一组具有代表性的实例及相应的解释来解决"信任模型"相关问题。
采用"解析预测"这一术语表示我们在展示文本或视觉伪影的内容,并通过这些伪影能够定量分析实例组件(如文本中的具体单词、图像中的特定区域)与模型预测之间的关系机制。
图1展示了单个预测过程的解释方法。若能提供清晰明了的解释,则有助于医生在模型协助下做出更加明智的选择,在此情况下, 该解释系统采用了一种带有相对权重的症状列表——其中该列表包含了不同症状的重要性程度——某些症状会支持预测结果(绿底表示),而另一些则会削弱结果(红底表示)。

图1:展示单个案例分析。一个医疗模型用于推断某位病人的流感患病风险,在此过程中Lime方法旨在揭示模型推断结果背后的关键病史因素。具体而言,在这种情况下患者出现了打喷嚏和头痛等症状被归因于流感患病的可能性;而无疲劳症状则被视作反驳这一推断的因素。基于这些信息医生便能够对模型得出的结果作出更为明智的判断。(绿色特征有助于提高流感患病概率;红色特征则降低了该概率)
当成百上千的特征对一个预测产生重大影响时,请希望用户能够理解为何进行预测显得不合逻辑, 即使他们能够审查单个权重. 这一要求进一步表明解释必须易于理解-就模型所涉及的特性而言, 并非总是如此. 因此,在解释中使用"输入变量"时, 请注意它可能与模型所使用的特征不同.
值得注意的是,局部保真度并不等同于全局保真度:整体关键特征在局部环境中可能并非同样重要;反过来也成立。尽管局域性保证能够推导出整体性保证的前提条件存在联系——即整体性保证暗示局域性保证——但要实现对模型行为具有可理解性的整体性支持仍然是一个极具挑战性的任务。
lime的总体目标是确定一个可解释的模型,使得可以在局部解释分类器。
这里我们关注稀疏线性模型作为解释,并使用扰动执行搜索。

图3展示了Lime方法在玩具分类中的应用案例。黑盒模型的复杂决策函数f(Lime模型不了解内部机制)以蓝色和粉色背景突出显示;而线性模型难以准确模仿复杂的决策边界。红色十字符号代表当前正在分析的关键案例。LIME通过采样实例并利用函数f生成预测结果,在评估时依据与被解释实例相似度(以大小衡量)确定权重;距离越近则权重越高。虚线展示了基于局部区域而非全局范围的有效解析路径。
在讨论"基督教和无神论"时, 其解释表明该预测看似基于过于草率的假设. 其中包含如'Posting'、'Host'以及'RE',这些术语均与宗教或无神论领域无关. 经统计发现,这些术语占训练集约22%,其中约99%集中在'无神论'相关类别中.
基于对解释的深入理解后
4、用于解释模型的子模块选择
尽管单一预测的解释有助于用户理解分类器的有效性与可靠性,但仅通过整体评估来检验模型的信任度是不够全面的.我们推荐通过解析一组特定的实例来实现对模型全局行为的理解.这种方法仍然与模型本身无关.
尽管解析多个实例可能非常有价值,但这些实例的选择需要谨慎,因为用户可能没有足够的时间逐一查看所有的解析结果.假设人类拥有的时间和耐心总量为B,那么B就表示在理解一个模型时,他们愿意接受多少种解析结果.给定一个实例集合X,我们将挑选步骤定义为从X中选择B个实例供用户进行详细检查的任务.
此外,这种方法应该选择一组多样且具有代表性的一组不同的解析结果,以向用户展示这些能够反映模型全局行为特征的非冗余解析.
在图5中进行展示的是一个玩具示例的矩阵W,在其中W=d′=5(为了简化起见),其中W是二进制的。重要性函数应赋予特征f2更高的得分优于特征f1(即I₂>I₁),因为特征f2能够解释更多的实例
然而我们试图在展示给用户的组件中选择包含重要组件的实例 然而解释集不应该多余 即避免选择具有类似解释的实例 在图5中 当选择第二行后 在第三行并没有添加任何新值 因为用户已经看到了特征f2和f3 最后一行则添加了一个新的特征 这两行结合起来基本上涵盖了所有的特性 我们通过等式(3)将这种非冗余覆盖的概念形式化了 即使这样也能基本涵盖所有重要的特性

定义为c(V∪{i}, W, i)−c(V, W, i)的是向集合V加入实例i所带来的边际覆盖增益量。基于其子模块性特性,在贪婪算法中会逐步选择那些能带来最大边际增益的实例以构建解集。我们详细阐述了这一过程,并将其命名为submodular pick策略。


采用了两个情绪分析数据集(书籍和DVD类别各包含2000个实例),任务是对产品评论进行情感分类为正面或负面。每个数据集被划分为训练集(1600个样本)和测试集(400个样本)。
为了深入解析单个预测结果,本研究将提出的方法(即LIME)与其对比方法Parzen进行了系统性对比分析。研究发现,在分析过程中,Parzen方法选取了具有最大梯度幅值的前K个关键属性进行分析,并通过交叉验证确定了两个模型的最佳超参数配置,并将样本数量设定为N=15,000。此外,在对比中还包含了贪心策略的应用,在该过程中通过逐步移除对分类结果影响最大的关键属性来优化模型解释性。具体而言,在贪心策略中将被移除的关键属性数量设定为其总属性数中的最大值K时会停止操作;而当某个关键属性的影响足以使分类结果发生变化时也会停止操作。最后,在实验过程中设置了关键属性数量为K=10
在应用Pick程序的实验中,我们可以选择随机选择(RP)或者采用第4节所述的方法(SP).在引用时,在RP或SP前添加相应的前缀.
5.2 解释是否与模型相符?
我们评估生成的解释与真实重要特征的一致性,并基于稀疏的逻辑回归模型和决策树结构进行分析。具体而言,在训练过程中限制每个实例所依赖的最大特征数量为10个,并通过这一约束确保模型具有良好的可解释性特性。为了量化LIME方法的效果,在测试集上我们对每一个预测结果都生成相应的解释,并计算其恢复精度(recovery score)。图6和图7展示了所有测试样本上的平均恢复精度分布情况。实验结果表明,在逻辑回归模型中两种方法表现接近(贪婪方法与Parzen方法),但Parzen方法在决策树模型上的效果较差(Greedy method vs Parzen method)因为每次仅修改一个特征可能不足以显著影响预测结果的变化程度。特别地,在高维空间中难以精确近似原始分类器的情况下(文本是parzen解算器的一个例外情况),Parzen方法的整体恢复精度显著下降。通过对两个数据集的实验分析可知,在所有情况下LIME始终能够提供较高水平的恢复精度(90%以上),这充分验证了LIME方法对原始模型具有高度的一致性和可靠性


