ON MUTUAL INFORMATION MAXIMIZATION FOR REPRESENTATION LEARNING
ON MUTUAL INFORMATION MAXIMIZATION FOR REPRESENTATION LEARNING
近年来提出的许多无监督或自监督的表征学习方法通过最大化数据的不同视图之间的相互信息(Mutual Information, MI)来训练特征提取器。这种方法带来了几个直接的问题。例如,在MI方面存在众所周知的估计困难,并且由于其在任意可逆变换下的不变性特性,在实际应用中使用MI作为表征学习的目标可能会导致高度纠缠的表征结构(highly entangled representations)。然而,在实践中已被反复证明是优秀的方法之一。在此研究中我们认为并提供了一定程度上的实验支持这些方法的成功不仅仅得益于MI本身的特性而是与其所采用特征提取器结构及参数化中的归纳偏差密切相关。此外我们还建立了一个与深度度量学习紧密相关的理论框架并认为这一解释可能是对近期引入的一些新方法成功性能的一种合理解释。
1 INTRODUCTION
近年来,在InfoMax原理(Linsker, 1988)的启发下

MI的基本属性得到了充分的认识,并且在研究上得到了深入的关注(例如Kraskov等人于2004年的研究)。首先,在变量进行重构时, 互信息量保持不变;换句话说, 在经过光滑可逆映射后的变量X' = f₁(X)和Y' = f₂(Y)之间计算出互信息量与原始变量X和Y之间的一致。其次, 在高维空间中估算互信息量是一个公认的难点; 因此, 在实践中通常会寻找其可行下界来解决这一问题
尽管面临这些基础性挑战,在近期的研究中发现,在表征学习方面取得积极的结果表明使用MI的最大化是一种有效的策略。在当前工作中 我们发现 并通过实验验证 这些方法的成功并非单纯地得益于MI的作用 而是由于我们在理论上证明 通过最大化比现有界更为紧致从而可能导致表示性能的下降这一结论 进一步地 我们还探讨了该方法与深度度量学习之间的内在联系 并认为这种联系可能是近期相关方法取得成功的重要因素之一
2 BACKGROUND AND RELATED WORK
RELATED WORK
近年来的重要进展及其 InfoMax 原则 据报道,在其他领域也出现了令人鼓舞的研究成果(Tian 等人, 2019; Hénaff 等人, 2019; Bachman 等人, 2019)。值得注意的是,在无监督学习框架下实现图像分类任务最优性能的技术将是我们研究的重点对象。这一问题最早可追溯至 Becker 和 Hinton(1992),简单描述如下:考虑一个任意选取的图像 X。假设我们能够从 X 中提取出多个不同的视角(可能有重叠),例如像上半部与下半部这样的典型划分。这些不同视角分别通过编码器 g₁ 和 g₂ 进行编码处理后生成特征向量 g₁(X^(¹)) 和 g₂(X^(²))。我们需要最大化这两个特征向量之间的互信息 MI(g₁(X^(¹)), g₂(X^(²)))。

其中I_{EST}(X,Y)是一种基于样本的真实互信息I(X,Y)的估计方法;函数类\mathcal{G}_1和\mathcal{G}_2用于定义编码器的结构约束。需要注意的是,在方程(2)中并未直接体现这一点;然而,在实际应用中,g₁和g₂通常会共用某些参数。另外, 可证得信息量满足I(g₁(X^{(1)}); g₂(X^{(2)})) ≤ I(X; g₁(X^{(1)}), g₂(X^{(2)}))因此, 方程(2)中的目标可被视为InfoMax准则max_{g∈\mathcal{G}} I(X; g(X))的一个下界值。(Linsker, 1988)
Practical advantages of multi-view formulations
采用第(2)个目标函数而非传统的InfoMax方法带来了两个显著的优势。首先,仅仅在两个学习表示之间估计互信息量 MI,而这两个学习表示通常位于比原始数据X所在的更低维度的空间中.其次,它为我们提供了极大的灵活性,因为我们能够选择不同的两组视图来捕捉数据的不同方面及其内在模式,例如:
- 在DeepInfoMax(Hjelm等人,2019)的基本形式中,g1g_1从整个图像(entire image)X(1)X(1)中提取全局特征,g2g_2从图像斑块( image patches )X(2)中提取局部特征,其中g1g_1和g2g_2对应于同一卷积网络不同层中的激活。Bachman等人(2019)在此基础上,从同一图像的不同增量中计算出两个视图。
- Contrastive multiview coding(CMC)(Tian等人,2019)将(2)中的目标概括为考虑多个视图X(i)X{(i)},其中每个X(i)X{(i)}对应不同的图像模式(例如,不同的颜色通道,或图像及其s segmentation mask)。
- Contrastive predictive coding(CPC)(van den Oord等人,2018;Hénaff等人,2019)包含了数据的顺序部分。具体来说,我们以某种固定的顺序从图像中提取一连串的斑块,用编码器映射每个斑块,将前t个斑块的特征汇总成一个上下文向量,并使上下文和从t+k位置的斑块中提取的特征之间的MI最大化。
其他方法中还包括Sermanet等人的(2018)、Hu等人的(2017)以及Ji等人的(2019)所提出的方法
From (2), another key consideration emerges as IESTI_{EST}, which represents an estimator for mutual information. Based on McAllester and Statos' (2018) analysis of mutual information's fundamental constraints, recent research has concentrated on establishing lower bounds for mutual information. Fundamentally, these bounds are grounded in the concept that if a classifier can effectively differentiate between samples sampled from the joint distribution p(x,y) and those sampled from the product of marginals p(x)p(y), then X and Y exhibit a high mutual information value.
我们计划深入探讨两个这类估计器,在表征学习文献中占据重要地位。其中最常用的是InfoNCE(van den Oord等人于2018年提出),其定义为

其中,期望值是来自联合分布p(x,y)p(x,y)的K个独立样本{(xi,yi)}i=1K{(xi,yi)}^K _{i=1}(Poole等人,2019)。在实践中,我们通过对多batch样本的平均化,使用蒙特卡洛估计法来估计(3)。Intuitively, the critic function f tries to predict for each xix_i which of the K samples y1,...,yky_1, . . . , y_k it was jointly drawn with, by assigning high values to the jointly drawn pair, and low values to all other pairs。第二个估计器是基于Nguyen、Wainwright和Jordan(NWJ)的KL发散的变分形式(Nguyen等人,2010),其形式为

涉及详细的推导过程,请读者参考Ruderman等人在2012年以及Poole等人在2019年的研究工作。
这些界限适用于任何critic f,并且在方程(2)中被应用时实际上涉及了函数g₁、g₂以及它们与函数f的组合fg₁和fg₂的最大化。
进一步地可以证明结果表明方程3是由f*(x,y)=log p(y|x)最大化得到的结果。
最后我们有方程4的形式为f*(x,y)=1 + log p(y|x),这是通过对函数进行相应的调整而实现的最大化。
f的常见选择包括基于双线性批评网络的f(x, y)=x^TWy(van den Oord et al., 2018;Hénaff et al., 2019;Tian et al., 2019),可分离批评网络f(x, y)=ϕ₁(x)^Tϕ₂(y)(Bachman et al., 2019)以及连接式批评网络f(x, y)=φ([x, y])(Hjelm et al., 2019)。当这些估计器应用于解决(2)时,在这种情况下,critic与编码器g₁,g₂之间的界限可能不那么清晰。(the line between the critic and the encoders g₁,g₂ can be less clear.)例如,我们可以通过内积形式使用一个批评网络f(x,y)=x^Ty;然而,在这种情况下,通过g₁,g₂中间层提取特征后形成的体系结构则构成一个可分离批评网络.然而,这一边界对于MI估计量以及MI与表示学习之间的相互作用具有至关重要的影响.
