Advertisement

综述2022_Revisiting Deep Learning Models for Tabular Data

阅读量:

重新审视表格数据的深度学习模型

  • 代码
  • 论文
    • 3puss3

      • 3.1 存在什么问题
      • 3.2 有什么方法解决问题
    • 1puss1

      • 1.1标题title
      • 1.2摘要abs
      • 1.3结论conclusion
      • 1.4研究背景intro
    • 2puss2

      • 2.3小结
      • 2.1方法method
        • 2 Related work
    • 3 Models for tabular data problems

      • 2.2实验exp
        • 5 Analysis

代码

链接:

复制代码
()
复制代码
// An highlighted block
var foo = 'bar';
复制代码
## 论文

链接: [paper]()

### 3puss3
复制代码
如果要是我来写这篇文章,我会如何组织这个结构?
问题是怎么提出的、如果是我来做这个事情的话该怎么办,我应该可以用什么方法来实现、
实验我应该这么做,能不能比他做得更好、我怎么做没有往前走的部分。
--脑补出它整个流程是什么样子的,似乎是自己在做实验,写论文一样。

第三遍之后,关上文章也能会回忆出很多细节的部分和整体流程,之后在基于它做研究时(可以详详细细的复述一遍)。
复制代码
#### 3.1 存在什么问题
复制代码
// A code block
var foo = 'bar';
复制代码
#### 3.2 有什么方法解决问题
复制代码
// A code block
var foo = 'bar';
复制代码
### 1puss1

#### 1.1标题title

重新审视表格数据的深度学习模型

#### 1.2摘要abs

关于表格数据深度学习的现有文献提出了各种新颖的架构,并报告了各种数据集上的竞争结果。然而,所提出的模型通常没有适当地相互比较,现有的作品往往使用不同的基准和实验协议。因此,研究人员和实践者都不清楚什么模型表现最好。此外,该领域仍然缺乏有效的基线,即在不同问题上提供有竞争力的性能的易于使用的模型。在这项工作中,我们对表格数据的DL架构的主要系列进行了概述,并通过识别两个简单而强大的深层架构来提高表格DL中的基线。  
第一个是一个类似ResNet的架构,这是一个强大的基线,在以前的作品中经常缺失。  
第二个模型是我们对表格数据的Transformer架构的简单调整,它在大多数任务上都优于其他解决方案。  
这两种模型进行了比较,许多现有的架构上的不同的一组任务下相同的训练和调整协议。我们还比较了最好的DL模型与梯度提升决策树,并得出结论,仍然没有普遍的上级解决方案。源代码可 https://github.com/yandex-research/rtdl.上获得。

#### 1.3结论conclusion

在这项工作中,我们调查了表格数据深度学习领域的现状,并改进了表格数据学习中的基线状态。  
首先,我们已经证明了一个简单的类似ResNet的架构可以作为一个有效的基线。  
其次,我们提出了FT-Transformer --一种简单的Transformer架构的改编,在大多数任务上都优于其他DL解决方案。  
我们还将新的基线与GBDT进行了比较,并证明GBDT在某些任务上仍然占主导地位。  
该研究的代码和所有细节都是开源的,我们希望我们的评估和两个简单的模型(ResNet和FT-Transformer)将作为进一步开发表格DL的基础。

#### 1.4研究背景intro

由于深度学习在图像、音频和文本等数据领域的巨大成功(Goodfellow et al.,2016年),有很多研究兴趣将这一成功扩展到以表格格式存储的数据的问题。在这些问题中,数据点被表示为异构特征的向量,这对于工业应用和ML竞赛来说是典型的,其中神经网络以GBDT的形式具有强大的非深度竞争对手(Chen和Guestrin,2016;Ke等人,2017;Prokhorenkova等人,2018年)。**沿着潜在的更高性能,对表格数据使用深度学习是有吸引力的,因为它允许为问题构建多模态管道,其中只有一部分输入是表格,其他部分包括图像,音频和其他DL友好的数据。然后可以通过针对所有模态的梯度优化来端到端地训练这样的管道。由于这些原因,最近提出了大量的DL解决方案,并且新的模型不断出现** (Arik和Pfister,2020;Badirli等人,2020;Hazimeh等人,2020;Huang等人,2020年;Könauer等人,2017;Popov等人,2020;Song等人,2019年;Wang等人,2017年,2020年)。  
不幸的是,由于缺乏已建立的基准(例如ImageNet(Deng et al.,2009)用于计算机视觉或GLUE(Wang等人,2019年a)对于NLP),现有的论文使用不同的数据集进行评估,并且提出的DL模型往往不能充分地相互比较。因此,从目前的文献中,还不清楚DL模型通常比其他模型表现得更好,以及DL模型是否超过了GBDT。此外,尽管有大量新颖的架构,但该领域仍然缺乏简单可靠的解决方案,这些解决方案允许以适度的努力实现有竞争力的性能,并在许多任务中提供稳定的性能。在这方面,多层感知器(MLP)仍然是该领域的主要简单基线,但它并不总是对其他竞争对手构成重大挑战。  
所描述的问题阻碍了研究进程,并使论文中的观察结果不够结论性。因此,我们认为,现在是审查实地最新进展并提高表格DL中基线标准的时候了。我们从一个假设开始,即在表格数据的背景下,经过充分研究的DL架构块可能未被充分探索,并可用于设计更好的基线。因此,我们从其他领域的著名的战斗测试架构的灵感,并获得两个简单的表格数据模型。第一种是类ResNet架构(He et al.,2015年),第二个是FT-Transformer -我们对Transformer架构的简单改编(Vaswani等人,2017年)的表格数据。然后,我们将这些模型与许多现有的解决方案进行比较,这些解决方案在相同的训练和超参数调整协议下针对不同的任务集。首先,我们发现,没有一个考虑的DL模型可以始终优于ResNet类模型。鉴于其简单性,它可以作为未来工作的一个强有力的基线。其次,FT-Transformer在大多数任务上表现出最佳性能,成为该领域新的强大解决方案。有趣的是,FT-Transformer被证明是表格数据的一个更通用的架构:它在更广泛的任务上比更“传统”的ResNet和其他DL模型表现得更好。最后,我们将最好的DL模型与GBDT进行比较,并得出结论,仍然没有普遍的上级解决方案。  
我们总结了我们的论文的贡献如下:  
1.我们彻底评估的主要型号的表格DL在不同的任务,以调查他们的相对性能。  
2.我们证明了一个简单的ResNet类架构是表格DL的有效基线,这被现有文献所忽视。鉴于其简单性,我们建议在未来的表格DL工作中进行比较。  
3.我们介绍FT-Transformer -一种简单的Transformer架构,用于表格数据,成为该领域新的强大解决方案。我们观察到,它是一个更通用的架构:它比其他DL模型在更广泛的任务上表现良好。  
4.我们发现,在GBDT和深度模型之间仍然没有普遍的上级解决方案。

### 2puss2
复制代码
(**关注的地方**:第二遍阅读的时候,最重要是搞明白那些重要的图和表,
都要知道他每一个字在干什么事情作者提出的方法和别人提出的方法是怎么进行对比的?之间差距有多大?
比如:方法里面的流程图、算法图长什么样子,实验里的每张xy轴代表什么、每个点的意思,
作者提出的方法和别人的方法怎么对比、之间差距有多大。)

(**达到的效果**:第二遍阅读完之后,你就对整个论文的各个部分,都有一个大概的了解,
中间可以把作者引用的别人的相关文献圈出来,比如作者是在某某某的方法上进行了改进,做了哪些改进之类的。
这里需要注意的是,如果你发现作者引用的这些重要文献是你没有读过的,
那么你需要把它圈出来,作为你的稍后阅读清单(圈出相关的文献,那些方法是xxx提出的,再xxx的方法上改进的))

(**对后续的影响**:这一遍阅读之后,你需要再继续思考一下这篇论文的质量以及和自己研究方向的契合程度,
决定一下自己要不要进行第三遍的完完全全彻底的精读(解决了什么问题,结果怎么样,用了什么方法。决定要不要继续往下精读puss3。))
复制代码
#### 2.3小结
复制代码
// A code block
var foo = 'bar';
复制代码
#### 2.1方法method

##### 2 Related work

表格数据问题的“浅层”最先进的技术是决策树的集合,例如GBDT(梯度提升决策树)(Friedman,2001),这通常是各种ML竞赛中的首选。目前,有几个已建立的GBDT库,如XGBoost(Chen和Guestrin,2016),LightGBM(Ke等人,2017),CatBoost(Prokhorenkova等人,2018),被ML研究人员和从业者广泛使用。虽然这些实现在细节上有所不同,但在大多数任务上,它们的性能差别不大(Prokhorenkova等人,2018年)。  
在最近几年中,已经开发了大量用于表格数据的深度学习模型(Arik和Pfister,2020; Badirli等人,2020; Hazimeh等人,2020; Huang等人,2020年; Könauer等人,2017; Popov等人,2020; Song等人,2019; Wang等人,2017年)。这些模型中的大多数可以大致分为三类,我们在下面简要介绍。  
**可微树** 。第一组模型的动机是强大的性能的决策树集成表格数据。由于决策树是不可微的,并且不允许梯度优化,因此它们不能用作以端到端方式训练的管道的组件。为了解决这个问题,几项工作(Hazimeh等人,2020年;Kontweder等人,2015;Popov等人,2020年;Yang等人,2018)提出在内部树节点中"平滑"决策函数,以使整体树函数和树路由可区分。虽然该家族的方法在某些任务上可以胜过GBDT(Popov等人,在我们的实验中,它们的表现并不总是优于ResNet。  
**基于注意力的模型** 。由于基于注意力的架构在不同领域的普遍成功(Dosovitskiy等人,2021; Vaswani等人,2017年),几位作者也提出将注意力模块用于表格DL(Arik和Pfister,2020年; Huang等人,2020; Song等人,2019年)。在我们的实验中,我们表明,适当调整的ResNet优于现有的基于注意力的模型然而,我们确定了一种应用Transformer架构的有效方法(Vaswani等人,2017)到表格数据:由此产生的架构在大多数任务上都优于ResNet。  
**乘性相互作用的显式建模。**在关于推荐系统和点击率预测的文献中,一些作品批评MLP,因为它不适合于对特征之间的乘法交互进行建模(Beutel等人,2018; Qin等人,2021; Wang等人,2017年)。受此动机的启发,一些作品(Beutel等人,2018; Wang等人,2017年,2020年)提出了将功能产品纳入MLP的不同方法。然而,在我们的实验中,我们没有发现这样的方法是上级适当调整基线。

文献还提出了一些其他的架构设计(Badirli等人,2020年; Könauer等人,2017年),不能明确分配给上述任何组。总体而言,社区已经开发了各种模型,这些模型基于不同的基准进行评估,并且很少相互比较。我们的工作旨在对它们进行公平的比较,并确定始终提供高性能的解决方案。

##### 3 Models for tabular data problems

3表格数据问题的模型  
在本节中,我们将描述我们在工作中重点介绍的主要深度架构,以及比较中包含的现有解决方案。由于我们认为该领域需要强大的易于使用的基线,因此在设计ResNet(第3.2节)和FT-Transformer(第3.3节)时,我们尝试尽可能多地重用已建立的DL构建块。我们希望这种方法将导致概念上熟悉的模型,需要更少的努力来实现良好的性能。补充资料中提供了所有型号的其他讨论和技术细节。  
**记法** 。在这项工作中,我们考虑监督学习问题。D={(Xi,yi)}n i=1表示数据集,其中Xi=(x(num)i,x(cat)i)∈ X表示对象的数值x(num)ij和分类x(cat)ij特征,yi ∈ Y表示对应的对象标签。特征的总数表示为k。数据集被分成三个不相交的子集:D = Dtrain Dval Dtest,其中Dtrain用于训练,Dval用于提前停止和超参数调整,Dtest用于最终评估。我们考虑三种类型的任务:二元分类Y = {0,1},多类分类Y = {1,…,C}和回归Y = R。

3.1 MLP  
We formalize the “MLP” architecture in Equation 1.  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/FhY7Djr2XpiEa9oqtzxgULVWSn3B.png)  
3.2 ResNet  
我们知道有一种设计类似ResNet的基线的尝试(Kobrauer等人,2017年,报告的结果没有竞争力。然而,考虑到ResNet在计算机视觉方面的成功故事(He等人,2015)及其最近在NLP任务上的成就(Sun和Iyyer,2021),我们给予第二次尝试,并构建一个简单的ResNet变体,如公式2所述。与原始架构相比,主要构建块被简化,并且从输入到输出有一条几乎清晰的路径,我们发现这对优化是有益的。总的来说,我们希望这种架构在更深层次的表示可能有所帮助的任务上优于MLP。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/4TGX1VpdWrFJfIvszHbSe3qiEmhD.png)  
3.3 FT-Transformer  
在本节中,我们介绍FT-Transformer(Feature Tokenizer+Transformer)–一种针对表格域的Transformer架构的简单改编(Vaswani等人,2017)。图1展示了FT-Transformer的主要部件。简而言之,我们的模型将所有特征(分类的和数值的)转换为嵌入,并将一堆Transformer层应用于嵌入。因此,每个变形器层都在一个对象的要素级别上操作。在第5.2节中,我们将FT-Transformer与概念上类似的AutoInt进行比较。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/g1HDMiAku0VzKUtfmIsPh5pr9daq.png)  
图1:FT—Transformer架构。首先,特征标记器将特征转换为嵌入。然后,嵌入由Transformer模块处理,[CLS]令牌的最终表示用于预测。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/sP5OD6lRboFSxuwe3Yi4tagBfUXC.png)  
图2:(a)特征标记器;在示例中,有三个数值特征和两个分类特征;(B)一个Transformer层。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/TfjmQapbSHRqAYXMt8wF3Bc40GIO.png)  
我们使用PreNorm变体以更容易地优化(Wang等人,2019b),见图2。在PreNorm设置中,我们还发现有必要从第一个Transformer层中删除第一个规范化,以获得良好的性能。参见原始论文(Vaswani等人,2017)了解多头自注意(MHSA)和前馈模块的背景。有关激活、规范化放置和dropout模块等详细信息,请参见补充资料(Srivastava et al.,2014年)。  
预测.[CLS]令牌的最终表示用于预测:![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/Ji2q5FdmfCyQa84gA3bHknXrWxKV.png)  
局限性。FT-Transformer比ResNet等简单模型需要更多的资源(硬件和时间)进行训练,并且当特征数量“太大”时(由可用硬件和时间预算确定),可能无法轻松扩展到数据集。因此,广泛使用FT-Transformer来解决表格数据问题可能会导致ML管道产生更大的二氧化碳排放量,因为表格数据问题无处不在。所描述的问题的主要原因在于香草MHSA相对于特征数量的二次复杂性。然而,可以通过使用MHSA的有效近似来缓解该问题(Tay等人,2020年)。此外,仍然可以将FT-Transformer提炼成更简单的架构,以获得更好的推理性能。我们报告培训时间和使用的硬件补充。

3.4 Other models  
在本节中,我们列出了专门为表格数据设计的现有模型,我们将其包括在比较中。  
·SNN(Klambauer等人,2017年)。具有SELU激活功能的类似MLP的架构,可用于培训更深层次的模型。  
·NODE(波波夫等人,2020年)。不经意决策树的可微集成。  
·TabNet(Arik和Pfister,2020)。一种循环体系结构,它交替动态地重新加权功能和传统的前馈模块。  
·GrowNet(Badirli等人,2020年)。梯度对较弱的MLP有促进作用。官方实施只支持分类和回归问题。  
·DCN V2(Wang等人,2020年)。由类MLP模块和要素交叉模块(线性层和乘法的组合)组成。  
·AutoInt(Song等人,2019年)。将特征转换为嵌入,并将一系列基于注意力的转换应用于嵌入。  
·XGBoost(Chen和Guestrin,2016)。最流行的GBDT实现之一。  
·CatBoost(Prokhorenkova等人,2018年)。使用遗忘决策树(Lou和Obukhov,2017)作为弱学习器的GBDT实施。

4 Experiments  
在本部分中,我们将比较DL模型之间以及与GBDT之间的差异。请注意,在正文中,我们只报告关键结果。作为补充,我们提供了:(1)所有模型在所有数据集上的结果;(2)关于硬件的信息;(3)ResNet和FT-Transformer的训练时间。  
4.1比较的范围  
在我们的工作中,我们专注于不同架构的相对性能,**并且不采用各种与模型无关的DL实践,例如预训练,额外的损失函数,数据增强,蒸馏,学习率预热,学习率衰减等等** 。**虽然这些实践可以潜在地提高性能,但我们的目标是评估不同模型架构所施加的归纳偏差的影响** 。  
4.2数据集  
我们使用一组不同的11个公共数据集(详细描述见补充资料)。对于每个数据集,只有一个训练-验证-测试分割,因此所有算法都使用相同的分割。这些数据集包括:加州住房(CA,真实的房地产数据,Kelley Pace和巴里(1997)),成人(AD,收入估计,Kohavi(1996)),海伦娜(HE,匿名数据集,Guyon等人(2019)),Jannis(JA,匿名数据集,Guyon等人(2019)),Higgs(HI,模拟物理粒子,Baldi等人(2014));我们使用OpenML存储库中提供的98K样本版本(Vanschoren等人,2014))、ALOI(AL,images,Geusebroek等人(2005))、Epperium(EP,模拟物理实验)、Year(YE,音频特征,Bertin—Mahieux等人(2011))、Covertype(CO,森林特征,Blackard和Dean.(2000))、Yahoo(YA,搜索查询,Chapelle和Chang(2011))、Microsoft(MI,搜索查询,Qin和Liu(2013))。我们遵循逐点的方法来学习排名,并将排名问题(Microsoft,Yahoo)视为回归问题。数据集属性总结见表1。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/UA3Ht8kGzOxfl9MebThaNpE7qmvr.png)  
表1:数据集属性。符号:“RMSE”均方根误差,“Acc.”准确度。

4.3实现细节  
**数据预处理** 。数据预处理对于DL模型至关重要。对于每个数据集,所有深度模型都使用相同的预处理进行公平比较。默认情况下,我们使用Scikit-learn库中的分位数转换(Pedregosa等人,2011年)。我们将标准化(平均减法和缩放)应用于Helena和ALOI。后者表示图像数据,标准化是计算机视觉中的常见做法。在Epperly数据集上,我们观察到预处理对深度模型的性能有害,因此我们使用该数据集上的原始特征。我们将标准化应用于所有算法的回归目标。  
**Tuning** 。对于每个数据集,我们仔细调整每个模型的超参数。最好的超参数是在验证集上表现最好的超参数,因此测试集永远不会用于调优。对于大多数算法,我们使用Optuna库(Akiba等人,2019)来运行贝叶斯优化(树结构Parzen估计算法),据报道其上级随机搜索(Turner等人,2021年)。对于其余的,我们讨论了相应的论文推荐的预定义的配置集。我们补充提供了参数空间和网格。我们在迭代方面**Evaluation**.对于每个调优的配置,我们使用不同的随机种子运行15个实验,并报告测试集上的性能。对于某些算法,我们还报告了默认配置的性能,而无需超参数调整。  
**Ensembles.** 。对于每个模型,在每个数据集上,我们通过将15个单个模型分成三个大小相等的不相交组并对每组内单个模型的预测进行平均来获得三个集合。  
**Neural networks** 。我们最小化分类问题的交叉熵和回归问题的均方误差。对于TabNet和GrowNet,我们遵循原始实现并使用Adam优化器(Kingma和Ba,2017)。对于所有其他算法,我们使用AdamW优化器(Loshchilov和Hutter,2019)。我们不使用学习率表。对于每个数据集,我们对所有算法使用预定义的批量大小,除非在相应的论文中给出了关于批量大小的特殊说明(见补充资料)。我们继续训练,直到有耐心+1个连续的epoch在验证集上没有改进;我们为所有算法设置耐心= 16。  
**类别型特征** 。对于XGBoost,我们使用one-hot编码。对于CatBoost,我们采用了对分类特征的内置支持。对于神经网络,我们对所有分类特征使用相同维度的嵌入。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/HVW0JMlrDe5KCsbIk69UStjuZh4A.png)  
表2:DL模型的结果。报告了在15个随机种子上平均的度量值。标准差见补充资料。对于每个数据集,顶部结果以粗体显示。“名列前茅”是指“该结果与得分最高的结果之间的差距在统计学上不显著”。对于每个数据集,通过对报告的分数进行排序来计算排名;“rank”列报告所有数据集的平均排名。符号:FT-T ~ FT-变压器,↓ ~ RMSE,↑ ~准确度

4.4比较DL模型  
主要的takeaways:  
·MLP仍然是一个很好的健全性检查  
·ResNet是一个有效的基线,没有竞争对手可以持续超越。  
·FT—Transformer在大多数任务中表现最佳,成为该领域新的强大解决方案。  
·调优使MLP和ResNet等简单模型具有竞争力,因此我们建议在可能的情况下调优基线。幸运的是,今天,它更容易与库,如Optuna(Akiba等人,2019年)。

在其他模型中,NODE(Popov等人,2020年)是唯一一个在多项任务上表现出色的任务。然而,它在六个数据集(Helena,Jannis,Higgs,ALOI,Epperin,Covertype)上仍然不如ResNet,同时是一个更复杂的解决方案。此外,它不是一个真正的“单一”模型;事实上,它通常包含比ResNet和FT-Transformer更多的参数,并且具有类似集合的结构。我们通过表3中的集合比较来说明这一点。  
结果表明,FT-Transformer和ResNet从集成中受益更多;在这种情况下,FT-Transformer优于NODE,ResNet和NODE之间的差距显著减小。尽管如此,NODE仍然是基于树的方法中的一个突出的解决方案。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/nbA9ZzKPNvxIhHEopCrYd38ktJ7S.png)  
表3:具有最高等级的DL模型的集合的结果(参见表2)。对于每个模型—数据集对,报告在三个集合上平均的度量值。标准差见补充资料。根据数据集的不同,最高精度或最低RMSE以粗体显示。由于精度有限,一些不同的值用相同的数字表示。记法:↓~RMSE,↑~准确度。

4.5 Comparing DL models and GBDT  
在本节中,我们的目标是检查DL模型在概念上是否已经准备好超越GBDT。为此,我们比较了使用GBDT或DL模型可以实现的最佳度量值,而不考虑速度和硬件要求(毫无疑问,GBDT是一种更轻量级的解决方案)。我们通过比较集合而不是单个模型来实现这一点,GBDT本质上是一种集成技术,我们预计深度架构将从集成中受益更多(Fort等人,2020年)。我们在表4中报告了结果。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/csYJki7X26DlpNZOyAz3Mgx0EhSd.png)  
表4:GBDT和主要DL模型的集合的结果。对于每个模型-数据集对,报告在三个集合上平均的度量值。标准差见补充资料。符号见表3。  
**默认超参数** 。我们从默认配置开始检查“开箱即用”性能,这是一个重要的实际场景。默认的FT-Transformer意味着所有超参数都设置为我们在补充中提供的一些特定值的配置。表4表明,FT-变换器的集合大多优于GBDT的集合,这不是仅两个数据集(加州住房,成人)的情况。有趣的是,默认FT-变压器的合奏表现与调谐FT-变压器的合奏相当。  
**主要的收获** :FT-Transformer允许开箱即用地构建强大的合奏。  
**调整了超参数** 。一旦超参数被正确调整,GBDTs开始在一些数据集上占主导地位(加州住房,成人,雅虎;见表4)。在这些情况下,这些差距足以得出结论,DL模型并不普遍优于GBDT。重要的是,DL模型在大多数任务上优于GBDT的事实并不意味着DL解决方案在任何意义上都“更好”。事实上,这只是意味着构造的基准稍微偏向于“DL友好”的问题。无可否认,GBDT仍然是一个不适合解决具有大量类的多类问题的解决方案。根据类的数量,GBDT可能会表现出令人不满意的性能(Helena),甚至由于训练速度极慢(ALOI)而无法调整。  
主要的takeaways:  
·在DL模型和GBDT之间仍然没有通用的解决方案。  
·旨在超越GBDT的DL研究工作应该集中在GBDT优于最先进的DL解决方案的数据集上。请注意,包含“DL友好”问题对于避免此类问题的降级仍然很重要。

4.6 FT-变压器的一个有趣特性  
表4讲述了另一个重要的故事。也就是说,在GBDT优于ResNet(加州住房、成人、Covertype、Yahoo、Microsoft)的问题上,FT-Transformer以ResNet的形式提供了其相对于“传统”DL模型的大部分优势,而在剩余问题上的表现与ResNet不相上下。换句话说,FT-Transformer在所有任务上都提供了具有竞争力的性能,而GBDT和ResNet只在任务的某些子集上表现良好。这一观察结果可能证明,对于表格数据问题,FT-Transformer是一个更“通用”的模型。我们将在5.1节进一步发展这一直觉。请注意,所描述的现象与集合无关,也在单个模型中观察到(参见补充资料)。

#### 2.2实验exp

##### 5 Analysis

5.1 FT-Transformer什么时候比ResNet更好?  
在本节中,我们将向理解FT—Transformer和ResNet之间的行为差异迈出第一步,这在第4.6节中首次观察到。为了实现这一点,我们设计了一个合成任务的序列,其中两个模型的性能差异逐渐从可忽略不计变为显著。也就是说,我们生成并修复对象{Xi}n i=1,执行一次train-val-test分割,并在两个回归目标之间进行插值:fGBDT,这对于GBDT和fDL来说应该更容易,这对于ResNet来说应该更容易。形式上,对于一个对象:  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/CxmkJXMeai9rL4lIWFOwuovTGt7b.png)  
其中fGBDT(x)是30个随机构造的决策树的平均预测,fDL(x)是具有三个随机初始化的隐藏层的MLP。fGBDT和fDL都只生成一次,即相同的功能应用于所有对象(详细信息请参见补充资料)。在训练之前,对所产生的目标进行标准化。结果如图3所示。ResNet和FT-Transformer在ResNet友好的任务上表现相似,并且在这些任务上优于CatBoost。然而,当目标变得对GBDT更友好时,ResNet的相对性能显著下降。相比之下,FT-Transformer在整个任务范围内都具有竞争力的性能。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/0fNjIh8kzADLvETxa25m1Knoi9XY.png)  
图3:测试RMSE平均超过五个种子(阴影代表标准)。dev.)。一个α对应一个任务;每个任务都有相同的训练、验证和测试特征集,但目标不同。

其中fGBDT(x)是30个随机构造的决策树的平均预测,fDL(x)是具有三个随机初始化的隐藏层的MLP。fGBDT和fDL都只生成一次,即相同的功能应用于所有对象(详细信息请参见补充资料)。在训练之前,对所产生的目标进行标准化。结果如图3所示。ResNet和FT-Transformer在ResNet友好的任务上表现相似,并且在这些任务上优于CatBoost。然而,当目标变得对GBDT更友好时,ResNet的相对性能显著下降。相比之下,FT-Transformer在整个任务范围内都具有竞争力的性能。

5.2消融研究  
在本节中,我们将测试FT-变压器的一些设计选择。  
首先,我们将FT-Transformer与AutoInt(Song等人,2019)进行比较,因为它在spirit上是最接近的竞争对手。AutoInt还将所有功能转换为嵌入,并在它们之上应用自我关注。然而,在细节上,AutoInt与FT-Transformer有很大不同:它的嵌入层不包括特征偏差,它的主干与Vanilla Transformer有很大不同(Vaswani等人,2017),推理机制不使用[CLS]令牌。  
其次,我们检查特征标记器中的特征偏差是否对良好的性能至关重要。  
我们按照与第4.3节相同的方案调整和评估FT-Transformer,没有功能偏差,并重复使用表2中的剩余数字。表5中报告了15次运行的平均结果,并证明了Transformer的主干优于AutoInt的主干以及特征偏差的必要性。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/HLfEDsYQv28cNjFp7kdIa6CJPng1.png)  
表5:FT-Transformer和两种基于注意力的替代方案之间的比较结果:AutoInt和没有特征偏差的FT-Transformer。符号见表2。

5.3从注意力地图中获取特征重要性  
在本节中,我们将评估注意力地图作为给定样本集的FT-Transformer特征重要性的信息来源。对于第i个样本,我们从Transformer的前向传递中计算[CLS]令牌的平均注意力映射pi。然后,将获得的各个分布平均为一个表示特征重要性的分布p:  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/WhE7k1ziT3yvO5ZCpjQw0XglFKdf.png)  
其中pihl是第i个样本上第l层的前向传递的[CLS]令牌的第h个头部的注意力图。所描述的启发式技术的主要优点是它的效率:它需要一个单一的前一个样本。  
为了评估我们的方法,我们将其与积分修正(IG,Sundararajan et al.(2017))进行了比较,积分修正是一种适用于任何可微模型的通用技术。我们使用排列检验(PT,Breiman(2001))作为一个合理的解释方法,使我们能够建立一个建设性的度量,即秩相关。我们在训练集上运行所有方法,并在表6中总结结果。有趣的是,所提出的方法产生合理的特征重要性,并执行类似于IG(请注意,这并不意味着类似于IG的特征重要性)。鉴于IG可以慢几个数量级,并且PT形式的“基线”需要(nfeatures + 1)个向前传递(与所提出的方法相比),我们得出结论,注意力地图的简单平均值可以是成本效益方面的一个很好的选择。  
![在这里插入图片描述](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-04/CM6SX0yRKhIeY5dTOv3GrzBjUpqQ.png)  
表6:排列测试的特征重要性排名与两个备选排名之间的排名相关性(取值为[-1,1]):注意力地图(AM)和综合重要性(IG)。报告了5次运行的平均值和标准偏差。

全部评论 (0)

还没有任何评论哟~