《Positive-incentive Noise》IEEE Transactions on Neural Networks and Learnin S stems,论文精读
目录
1. INTRODUCTION
1.1 Motivation
1.2 Examples
1.3 Conclusion
2. POSITIVE-INCENTIVE NOISE
2.1 信息论的动机
2.2 单标签分类解释
2.3 随机共振的解释
2.4 多任务学习的解释
2.5 π-噪声与对抗训练的关系
3.APPLICATIONS OF π-NOISE
3.1 Enhanced π-Noise
3.1.1 Datasets Setting
3.1.2 Details of Generated Noise
3.1.3 Experiment Results:
3.2 Rectified π-Noise
3.2.1 数据集设置
3.2.2 Classification (Support Vector Machine ) 分类(支持向量机)
3.2.3 聚类
3.2.4 降维(线性判别分析)
3.2.5. 实验结果
4. Future Works
5. Conclusion
1. INTRODUCTION
1.1 Motivation
Noise can be generated from different phases:
(1) During the low-level data acquisition , noises could come from instrumental errors;
在 低水平数据 获取阶段,噪音的四个产生途径可能来自仪器误差;
(2) at the data level , noises may be caused by the differences of data storage and representation;
在 数据 获取阶段,会由于数据存储和表示的不同而产生噪音;
(3) at the feature level , noises are usually generated by the imprecise modelings;
在特征 水平 上,噪音通常由不精确的建模产生;
(4) there may exist instance-level noises as well, i.e. , irrelevant data points.
还可能存在 实例级 噪音, 即 不相关的数据点。
But is noise always harmful? NO!
1.2 Examples
下面有两个例子证明了噪声不总是对图像有负作用的:
1. Traffic noises. 声学任务领域汽车噪音的影响,因为汽车噪音 in the morning rush hour and midnight are clearly different, which can provide coarse information about time. 在大多数声学识别任务中,汽车噪声是由于接收效果不理想而产生的附加信号。然而,对于时间相关的任务,汽车噪音提供了额外的有益信息。
2. Gum example. 在墙上的口香糖和钉子本来都是一种噪音,但口香糖可以帮忙去除钉子,也就是说一种噪音可以帮忙去除另一种噪音。
1.3 Conclusion
所以人们意识到了噪音不总是mislead the target task in all cases,进而对噪音展开了研究。
根据任务熵的定义,将常规定义的噪声分为两类。一种是降低任务复杂度的噪声,即正激励噪声(pi噪声或π噪声)。另一种是对任务无用的噪声,即纯噪声。
2. POSITIVE-INCENTIVE NOISE
2.1 信息论的动机
对噪声的严格讨论应该基于任务,在讨论任务和噪声之间的关系之前,如何在数学上测量任务T是第一个关键问题。借助信息论,可以定义T的熵来表示T的复杂度 。从形式上讲,H(T)越小意味着任务越简单。
下面定义任务T与噪声的互信息,在传统噪声讨论的背景下,意外噪声和有害噪声的严格定义应满足MI(T, ) = 0。

然而,从理论和经验上来看,即使是简单的随机噪声(如高斯噪声)也可能导致正互信息。这是一个有趣的现象,因为它意味着发现完全不相关的随机噪声可能也很困难。
如果MI>0,就是π-noise,反之就是negative noise or pure noise
如果MI>α,就是α-strong π-noise,反之就是α-strong negative/pure noise
需要强调的是,π噪声可以看作是带来的一种信息增益。有人可能会说,为什么不通过信息增益来定义π噪声,这在机器学习中被广泛使用。互信息直接反映了π噪声的本质,是较好的选择。换句话说,随机噪声分量包含了T的有用信息。各种测量的信息增益可以用来估计MI,并有助于区分π噪声。即使对于π噪声,传统的噪声共识也不会改变:过多的π噪声会导致退化。
2.2 单标签分类解释

图1给出了分类任务的两个图像数据集。左图是航拍图像,其中标签空间服从于Y ={平面,建筑,树,…}。因此,它可能被标记为“飞机”、“建筑”或“树”。这也是标签平滑的目的。不确定标签增加了T的复杂性。相反,在没有复杂背景的物体的纯图像上进行分类更为简单。
任务熵可以在一定程度上衡量分类任务上下文下的信息量。
2.3 随机共振的解释
随机共振(Stochastic resonance, SR)[6]是一种噪声效益,信号检测的目的是尽可能多地检测出弱信号。不可见的刺激意味着可行域中的任何值都是可能的,这导致了强随机性。
SR分析表明,随机噪声在某些数据上可能是π噪声,而在其他数据上可能是纯噪声。这可能意味着在任务T的每个数据集上不存在π噪声或纯噪声
2.4 多任务学习的解释
多任务学习[12]可以看作π-噪声的一个特例。如果表示一个或几个任务,即 = (T1,T2,…)Tk)。假设所有与T相关的任务用G表示,其他不相关的任务用G表示。低秩多任务模型[12]打算采用{T}∪G并消去G,因为G是π噪声,G是纯噪声。
换句话说,H(T |G) < H(T)是多任务学习优于原任务的原因。
2.5 π-噪声与对抗训练的关系
π-噪声也为对抗训练提供了一个新的视角,这似乎与π-噪声框架有关。对抗性训练[5]通常表示为min θ X X∈X max kk≤C ' (fθ(X + ), y),(18),其中'(·)表示某个损失函数,θ为模型的学习参数,C为常数。对抗性训练的目标是通过引入对抗性扰动来增强模型fθ的鲁棒性。换句话说,潜在的假设是:fθ在X上获得了令人满意的性能,但得到了意想不到的泛化性能。
在π-noise框架中,使用来降低任务的复杂性,而不是针对任何特定的模型。更确切地说,引入π噪声的目的是为了降低模型的训练难度。大H(T)通常意味着模型可能学习不精确的语义信息,这可能为理解为什么某些模型在复杂数据集上不稳定提供新的视角。例如,分类模型可能会高估那些标签不确定的点。
3.APPLICATIONS OF π-NOISE
本节给出了π噪声的两种可能的应用。通过实验证明π噪声是普遍存在的。
3.1 Enhanced π-Noise
通过π噪声来降低任务的复杂度,也就是使用π-噪声来提高性能。这部分实验也直接回答了标题中提出的问题:即使是简单的随机噪声,其影响也并不总是负面的。
3.1.1 Datasets Setting
选择真实图像数据集STL-10[13]作为基准数据集。
假设原始图像是无噪声的,有三类噪声(乘性噪声、高斯噪声和均匀噪声)被加进去
采用SVM[15]、Lasso[16]、DLSR[17]作为分类器对性能进行评价
采用分类精度(ACC)度量来评价网络的性能

3.1.2 Details of Generated Noise
为了更有说服力,在原始训练集上应用了四类噪声。
multiplicative noise, Gaussian noise, and uniform noise,Dimension Noise
3.1.3 Experiment Results:
为了显示不同噪声对模型的影响,采用不同噪声比例的实验,p从{0.0,0.05,…, 0.95}进行。结果如图3所示。从这三幅图中,我们得出了一个违反直觉的结论:与“无噪声”的数据相比,带有少量简单随机噪声的数据增强了模型。
曲线呈倒u型曲线,表明适当的噪声是有益的。从图2的可视化中不难发现,适当的随机噪声模糊了背景,保留了飞机的必要特征,从而降低了复杂性。此外,维度噪声的增强如表2所示。其中,m为附加噪声的维数。加入噪声后,原始数据的分类性能大大提高。

实验结果证实了π噪声的存在,并支持了π噪声量的猜测。
3.2 Rectified π-Noise
另一种应用是利用π噪声来抵消纯噪声的负面影响。而不是检测和消除数据点的纯噪声
另一种方案是加入π噪声对数据分布进行校正。它特别适合于增量学习系统。增量系统的核心假设是昂贵的再培训。当有噪声点的数据点出现时,系统会受到不可逆的损伤,加入π噪声的思想提供了一种廉价的方案。它对应于第1节中提出的gum-nail实例。在详细介绍实验之前,需要强调的是,本小节中添加的噪声实际上是有噪声的实例,而不是作用于原始数据实例的加性或乘性噪声。
3.2.1 数据集设置
数据集设置:实验分为分类、聚类、降维三个任务。在分类聚类方面,共使用了3个数据集来研究π噪声校正的性能,包括一个合成数据集和2个UCI[18]数据集。对于每个数据集,每个类都有相同数量的样本。这些数据集的详细情况见表三。

3.2.2 Classification (Support Vector Machine ) 分类(支持向量机)
在实验中,使用经典支持向量机(SVM)作为分类器。
为了提高对有噪声数据集的分类精度,数据集配备了由不同高斯分布产生的有噪声样本。
引入校正后的π噪声,利用支持向量机进行分类预测,验证校正后的分类能力。
最后,通过增加π噪声的个数来探讨π噪声的个数对性能的影响。

3.2.3 聚类
噪声样本集由来自类1的20个样本组成,由N ([1.3;1.0], [0.001, 0;0, 0.001])。更重要的是,整流后的π噪声由来自第2类的20个点组成,
3.2.4 降维(线性判别分析)
最后利用经典的线性判别分析(LDA)[21]来检验π噪声是否可以纠正降维的表现。
3.2.5. 实验结果
从三种学习模型中,很容易得出π噪声存在的结论,消除纯噪声的负面影响,校正学习系统。这给我们的启示是,加入一些适当的随机噪声点,而不是检测现有的纯噪声并去除它,也有助于提高性能,这为研究鲁棒模型提供了一种新的方案。
4. Future Works
虽然π噪声广泛存在于不同的领域,但有一个关键的问题:(α强)π噪声具有什么性质?例如,在不同的场景中,研究哪种随机噪声(如均匀噪声、高斯噪声)更容易成为π噪声是很有前途的。这将是今后调查的核心。
正如前几节所强调的,虽然小的π噪声可以提高性能,但过大的π噪声也会导致性能退化。噪声π值与性能拐点的关系是什么?换句话说,使MI(T, )最大化的π噪声量的上界是什么?对于多元高斯噪声,该问题等价于求某范数下协方差矩阵的严格上界
虽然π-噪声的存在性在某些情况下(如分类、随机共振)已经得到了证实,但如何在一般情况下证明π-噪声的存在性仍然是一个有吸引力的问题。
•如III-B节所示,任务熵的计算提供了一种衡量数据集复杂性的新方法。因此,π噪声诱导的测量能否像Rademacher复杂度一样,提供一种新颖实用的学习理论框架的研究具有很大的吸引力[10]。它还可以显示如何度量每单位数据大小提供信息的能力,即信息容量。
虽然π噪声的整流能力得到了充分的展示,但如何找到整流后的π噪声是一个亟待解决的问题。一种可行的方法是通过变分方法找到理想的分布。
•π噪声可作为模型设计的新原理。
例如,如果优化的目的是寻找π-噪声,则对抗性训练可以更有效。含π噪声的简单损失为min θ max X X∈X ' (fθ(X + ), y) + MI(T, )。(19)与的启发式搜索相比,上述原理可能更加可靠和稳定。在目标检测中,π噪声可以提供一个可靠的原理来扩展边界盒,通过加入正背景信息来促进检测。
π噪声与纯噪声的明显区别也激发了我们对数据预处理的重新思考。π噪声的存在和基于任务的π噪声的定义意味着,由于某些噪声可能是有益的,因此应该针对特定的任务设计去噪方案
5. Conclusion
本文对噪声是否总是产生负面影响 进行了反思。这种怀疑来自于对噪音的松散定义。通过对任务T和噪声的互信息建模,将传统的“噪声”分为π噪声和纯噪声 两类。简而言之,π噪声是一种可以简化目标任务的随机信号 。通过一些令人信服的实验,并表明一些已有的课题(如随机共振、多任务学习、对抗训练)可以作为特例来解释,我们从经验和理论上得出π噪声在各个领域都是普遍存在的结论。π噪声的一般性质、π噪声量的上界、π噪声在一般条件下的存在性、π噪声模型设计的新原则等仍有许多值得深入研究的问题。重要的是,π噪声也与信息容量的研究有关。这两者都将是我未来工作的核心,也是我未来工作的理论基础。
