Advertisement

2017_DCN(Deep & Cross Network for Ad Click Predictions)

阅读量:

Deep & Cross Network for Ad Click Predictions

  • 0 摘要

  • 1 介绍

    • 1.1相关工作
    • 1.2主要贡献
  • 2 深度和交叉网络(DCN)

    • 2.1嵌入和堆叠层
    • 2.2跨网络
    • 2.3深度网络
    • 2.4组合层
  • 3交叉网络分析

    • 3.1多项式逼近
    • 3.2 FM的推广
    • 3.3高效的投影
  • 4实验结果

    • 4.1 Criteo显示广告数据
    • 4.2实现细节
    • 4.3比较模型
    • 4.4模型性能
    • 4.5非CTR数据集
  • 5 结论和今后的方向

0 摘要

特征工程是许多预测模型成功的关键。然而,该过程是不平凡的,并且优化需要手动特征工程或穷举搜索。DNN能够自动学习特征交互;然而,它们隐式地生成所有交互,并且在学习所有类型的交叉特征时不一定有效。
深度和交叉网络(DCN),它保留了DNN模型的优点,除此之外,它还引入了一种新的交叉网络,在学习某些有界度特征交互方面更有效。特别是,DCN在每一层都显式地应用特征交叉,不需要手动特征工程,并为DNN模型增加了可忽略的额外复杂性。
实验结果表明,在CTR预测数据集和密集分类数据集上,在模型精度和内存使用方面,它优于最先进的算法(2017年)。

1 介绍

点击率(CTR)预测是一个大规模的问题,是数十亿美元的在线广告行业必不可少的。在广告行业,广告商向出版商付费,让出版商在其网站上展示广告。一种流行的付费模式是按点击付费(CPC)模式,广告商只有在点击发生时才收费。因此,出版商的收入在很大程度上依赖于准确预测CTR的能力。识别经常预测的特征,同时探索看不见的或罕见的交叉特征是做出良好预测的关键。然而,Web规模的推荐系统的数据大多是离散和分类的,导致一个大而稀疏的特征空间,这是具有挑战性的特征探索。这限制了大多数大型系统的线性模型,如逻辑回归。线性模型简单,可解释且易于扩展;然而,它们的表达能力有限。另一方面,交叉特征在提高模型的表现力方面已经被证明是重要的。不幸的是,它需要人工特征工程或穷举搜索来识别这些特征;此外,推广到看不见的特征交互是困难的。
我们的目标是避免特定于任务的特征工程,通过引入一种新的神经网络结构-交叉网络-明确地应用功能交叉自动的方式。交叉网络由多个层组成,其中最高程度的交互由层深度确定。每一层都在现有的基础上产生更高阶的交互,并保留前一层的交互。我们将交叉网络与深度神经网络(DNN)联合训练。DNN有望捕获非常复杂的跨特征交互;然而,与我们的交叉网络相比,它需要近一个数量级的参数,无法显式地形成交叉特征,并且可能无法有效地学习某些类型的特征交互。然而,联合训练cross和DNN组件可以有效地捕获预测特征交互,并在Criteo CTR数据集上提供最先进的性能。

1.1相关工作

由于数据集的大小和维数急剧增加,已经提出了许多方法来避免广泛的特定任务的特征工程,主要是基于嵌入技术和神经网络。因式分解机(FM)将稀疏特征投影到低维密集向量上,并从向量内积中学习特征交互。场感知因子分解机(FFM)进一步允许每个特征学习多个向量,其中每个向量与一个场相关联。令人遗憾的是,外长和实况调查团的肤浅结构限制了它们的代表性。已经有工作将FM扩展到更高阶,但是一个缺点在于它们的大量参数,这会产生不期望的计算成本。由于嵌入向量和非线性激活函数,深度神经网络(DNN)能够学习非平凡的高度特征交互。残差网络最近的成功使非常深的网络的训练成为可能。Deep Crossing扩展了残差网络,并通过堆叠所有类型的输入来实现自动特征学习。深度学习的巨大成功引发了对其代表性的理论分析。有研究表明,DNN能够在给定足够多的隐藏单元或隐藏层的情况下,在某些平滑假设下以任意精度近似任意函数。此外,在实践中,已经发现DNN在可行的参数数量下工作良好。一个关键原因是,大多数具有实际意义的函数都不是任意的。
然而,还有一个问题是,DNN是否真的是表示这些实际功能的最有效的方法。在Kaggle1竞赛中,许多获胜解决方案中的手动创建的功能都是低度的,格式明确且有效。另一方面,DNN学习的特征是隐式的,高度非线性的。这为设计一个能够比通用DNN更有效、更明确地学习有界度特征交互的模型提供了启示。The wide-and-deep就是这种精神的典范。它将交叉特征作为线性模型的输入,并将线性模型与DNN模型联合训练。然而,宽和深的成功取决于一个适当的选择ofcross功能,指数的问题,目前还没有明确有效的方法。

1.2主要贡献

在本文中,我们提出了Deep & Cross Network(DCN)模型,该模型可以使用稀疏和密集输入实现Web规模的自动特征学习。DCN有效地捕获有界度的有效特征交互,学习高度非线性的交互,不需要手动特征工程或穷举搜索,并且具有低计算成本。
该文件的主要贡献包括:
我们提出了一种新的交叉网络,明确地在每一层应用特征交叉,有效地学习预测交叉特征的boundeddegrees,并需要nomanual特征工程或穷举搜索。
交叉网络简单而有效。通过设计,最高多项式次数在每一层处增加,并且由层深度确定。该网络由所有的交叉项的度,直到最高,与他们的系数都不同。
该交叉网络具有存储效率高、易于实现等优点。
实验结果表明,在交叉网络中,DCN比DNN具有更低的对数损失,其参数数量几乎少了一个数量级。

第2节描述了深度和交叉网络的体系结构。第三节详细分析了交叉网络。第4节给出了实验结果。

2 深度和交叉网络(DCN)

在本节中,我们将描述深度和跨网络(DCN)模型的架构。DCN模型从嵌入和堆叠层开始,然后是并行的交叉网络和深度网络。然后是最终的组合层,它将两个网络的输出组合在一起。完整的DCN模型如图1所示。
在这里插入图片描述
图1:深度和交叉网络

2.1嵌入和堆叠层

我们考虑具有稀疏和密集特征的输入数据。在诸如CTR预测的Webscale推荐系统中,输入大多是分类特征,例如“country=usa”。这些特征可能被编码为独热向量,例如“[0,1,0]";然而,这种编码会导致大词汇表的高维特征空间。为了降低维度,我们采用嵌入过程将这些二进制特征转换为真实的值的密集向量(通常称为嵌入向量):
在这里插入图片描述
其中xembed,i是嵌入向量,Xi是第i个类别中的二进制输入,Wembed,i ∈ Rne× Rne是将与网络中的其他参数一起优化的相应嵌入矩阵,ne,Rne分别是嵌入大小和词汇大小。最后,我们将嵌入向量与归一化的密集特征xdense一起沿着堆叠成一个向量:并将x0馈送到网络。
在这里插入图片描述

2.2跨网络

我们的新交叉网络的核心思想是以一种有效的方式应用显式特征交叉。交叉网络由交叉层组成,每层具有以下公式:在这里插入图片描述
其中xl、xl+1 ∈ Rd是分别表示来自第l和第(l + 1)交叉层的输出的列向量; wl、bl ∈ Rd是第l层的权重和偏置参数。每个交叉层在特征交叉f之后将其输入加回,并且映射函数f:Rd 7→ Rd拟合xl+1 − xl的残差。一个交叉层的可视化如图2所示。
在这里插入图片描述
功能之间的高度交互。交叉网络的特殊结构使得交叉特征的程度随着层深的增加而增加。最高多项式次数(以L层交叉网络的输入x0)是L +1。实际上,交叉网络包含所有交叉项xα1 1 xα2 2。…xαd d的次数从1到l + 1。详细分析见第3节。复杂性分析。令Lc表示交叉层的数量,并且d表示输入维度。然后,交叉网络中涉及的参数数量为
在这里插入图片描述
交叉网络的时间复杂度和空间复杂度在输入维上是线性的。因此,与深度网络相比,交叉网络的复杂性可以忽略不计,使DCN的整体复杂性与传统DNN保持在同一水平。这种效率得益于x0xT1的秩一属性,这使得我们能够生成所有交叉项而无需计算或存储整个矩阵。交叉网络的参数数量较少,限制了模型容量。为了捕捉高度非线性的相互作用,我们引入了一个并行的深度网络。

2.3深度网络

深度网络是一个全连接的前馈神经网络,每个深层具有以下公式:在这里插入图片描述
其中,hl ∈ Rnl,hl+1 ∈ Rnl+1分别是第l个和第(l + 1)个隐藏层; Wl ∈ Rnl+1×nl,bl ∈ Rnl+1是第l个深层的参数; f(·)是ReLU函数。复杂性分析。为了简单起见,我们假设所有深层的大小相等。设Ld表示深层的数量,m表示深层的大小。然后,深度网络中的参数数量为
在这里插入图片描述

2.4组合层

组合层将两个网络的输出连接起来,并将连接后的向量馈送到标准的logits层。下面是两类分类问题的公式:在这里插入图片描述
其中xL 1 ∈ Rd,hL 2 ∈ Rm分别是交叉网络和深度网络的输出,wlogits ∈ R(d+m)是组合层的权重向量,σ(x)= 1/(1 + exp(−x))。损失函数是带有正则化项的对数损失,
在这里插入图片描述
其中pi是从等式5计算的概率,yi是真实标签,N是输入的总数,λ是L2正则化参数。我们联合训练这两个网络,因为这允许每个网络在训练过程中了解其他网络。

3交叉网络分析

我们分析了DCN的交叉网络,以了解其有效性。我们提供了三个方面:多项式逼近,推广到FM,有效的投影。为了简单起见,我们假设bi = 0。
在这里插入图片描述
符号。设wj中的第i个元素为w(i)j。对于多指标α = [α1,· · ·,αd] ∈ Nd和x = [x1,· · ·,xd] ∈ Rd,我们定义|α| = α i=1 αi。术语.交叉项(单项)xα1 1 xα2 2· · · xαd d的次数定义为:|α|.多项式的次数由它的项的最高次数定义。

3.1多项式逼近

根据Weierstrass逼近定理,任何函数在一定的光滑性假设下都可以用多项式逼近到任意精度。因此,我们从多项式逼近的角度来分析交叉网络。特别是,交叉网络以一种高效,表达性和更好地推广到真实世界数据集的方式近似相同次数的多项式类。我们详细研究了交叉网络对同阶多项式类的逼近。让我们用Pn(x)表示次数为n的多元多项式类:
在这里插入图片描述
这类多项式的系数为O(dn)。我们证明了,只有O(d)的参数,交叉网络包含所有的交叉项出现在多项式的相同的次数,与每个项目的系数彼此不同。在这里插入图片描述
定理3.1考虑一个l层交叉网络,其中第i + 1层定义为Xi+1 = x 0 xT i wi + Xi。设网络的输入为x 0 = [x1,x2,…,xd]T,输出为<l(x 0)= xTlwl,参数为bwi,bi ∈ Rd。然后,多元多项式<l(x 0)再现以下类别中的多项式:
在这里插入图片描述
定理3.1的证明在附录中。让我们给予一个例子。考虑x1x2x3的系数cα,其中α =(1,1,1,0,…,0)。当l = 3时,cα = i,j,k∈Pα w(i)0 w(j)1 w(k)3 +w(i)0 w(j)2 w(k)3 + w(i)1 w(j)2 w(k)3 .

3.2 FM的推广

交叉网络继承了FM模型的参数共享精神,并进一步将其扩展到更深层次的结构。在FM模型中,特征Xi与权重向量vi相关联,并且交叉项xixj的权重由hvi、vji计算。在DCN中,Xi与标量{w(i)k }l k=1相关联,并且xixj的权重是来自集合{w(i)k }l k=0和{w(j)k }l k=0的参数的乘法。两种模型都是每个特征学习一些独立于其他特征的参数,交叉项的权重是相应参数的一定组合。参数共享不仅使模型更有效,而且使模型能够推广到不可见的特征交互,并且对噪声更具鲁棒性。例如,以具有稀疏特征的数据集为例。如果两个二元特征Xi和xj很少或从不在训练数据中共同出现,即,Xi xixj的学习权重为xixj,则xixj的学习权重将不携带用于预测的有意义的信息。FM是一种浅层结构,仅限于表示2次交叉项.相反,DCN能够构造所有交叉项xα1 1 xα2 2。…xαd d有度数|α|由层深决定的常数所限定,如定理3.1所述。因此,交叉网络将参数共享的思想从单层扩展到多层和高度交叉项。注意,与高阶FM不同,交叉网络中的参数数量仅随输入维度线性增长。

3.3高效的投影

每个交叉层以有效的方式将x 0和x1之间的所有成对交互投射回输入的维度。考虑x ∈ Rd作为交叉层的输入。交叉层首先隐式地构造d2个成对交互Xi xj,然后以存储器高效的方式隐式地将它们投影回dimensiond。然而,直接的方法会带来立方成本。我们的交叉层提供了一种有效的解决方案,可以将成本降低到维度d的线性。考虑xp = x 0 <$xTw。这实际上相当于
在这里插入图片描述
其中行向量包含所有d 2个成对相互作用Xi x j,投影矩阵具有块对角结构,其中w ∈ Rd是列向量。

4实验结果

在本节中,我们评估了DCN在一些流行的分类数据集上的性能。

4.1 Criteo显示广告数据

Criteo Display Ads2数据集用于预测广告点击率。它有13个整数特征和26个分类特征,每个类别都有一个高基数。对于该数据集,对数损失改善0.001被认为具有实际意义。当考虑到一个庞大的用户群时,预测准确性的微小改进可能会导致公司收入的大幅增加。这些数据包含7天内的11 GB用户日志(1.41亿条记录)。我们使用前6天的数据进行训练,并将第7天的数据随机分为大小相等的验证集和测试集。

4.2实现细节

DCN在TensorFlow上实现,我们简要讨论了使用DCN进行训练的一些实现细节。数据处理和嵌入。实值特征通过应用对数变换进行归一化。对于类别特征,我们将特征嵌入到维数为6×(类别基数)1/4的稠密向量中。将所有嵌入连接起来会得到一个维数为1026的向量。我们使用Adam优化器应用小批量随机优化。批量大小设置为512。批量归一化应用于深度网络,梯度裁剪范数设置为100。正规化。我们使用了早期停止,因为我们没有发现L2正则化或dropout是有效的。超参数我们报告的结果基于网格搜索的数量ofhidden层,隐藏层的大小,初始学习率和交叉层的数量。隐藏层的数量从2到5不等,隐藏层的大小从32到1024。对于DCN,交叉层3的数量为1至6。初始学习率4从0.0001调整到0.001,增量为0.0001。所有实验都在训练步骤150,000处应用早期停止,超过该步骤开始发生过拟合。

4.3比较模型

我们将DCN与五种模型进行了比较:无交叉网络的DCN模型(DNN),逻辑回归(LR),因子分解机(FM),宽深模型(W&D)和深度交叉(DC)。DNN嵌入层、输出层和超参数调整过程与DCN相同。与DCN模型相比,唯一的变化是没有交叉层。LR.我们使用了Sirobot [2]-一个用于分布式逻辑回归的大规模机器学习系统。整数特征在对数尺度上离散化。通过复杂的特征选择工具选择交叉特征。所有的单一功能都被使用FM。我们使用了一个基于FM的模型,其中包含专有的细节。W&D。与DCN不同的是,它的宽分量将原始稀疏特征作为输入,并依赖于穷举搜索和领域知识来选择预测交叉特征。我们跳过了比较,因为没有好的方法来选择交叉特征。DC.与DCN相比,DC不形成显式的交叉特征。它主要依靠堆叠和剩余单元来创建隐式交叉。我们应用了与DCN相同的嵌入(堆叠)层,然后是另一个ReLu层来生成残差单元序列的输入。残差单元数从1调整到5,输入维数和交叉维数从100调整到1026。

4.4模型性能

在本节中,我们首先列出了不同模型在logloss方面的最佳性能,然后详细比较了DCN和DNN,也就是说,我们进一步研究了交叉网络引入的影响。不同型号的性能。表1列出了不同模型的最佳测试对数损失。DCN模型的最佳超参数设置为2个深度层大小为1024和6个交叉层,DNN的5个深度层大小为1024,DC的5个残差单元输入维度为424,交叉维度为537,LR模型的42个交叉特征。在最深的交叉架构中发现了最佳性能,这表明来自交叉网络的高阶特征交互是有价值的。正如我们所看到的,DCN远远优于所有其他模型。特别是,它优于最先进的DNN模型,但只使用DNN中消耗的40%的内存。
在这里插入图片描述
表1:不同模型的最佳测试对数损失。“DC”是深度交叉,“DNN”是没有交叉层的DCN,“FM”是基于因子分解机的模型,“LR”是逻辑回归。
对于每个模型的最佳超参数设置,我们还报告了10次独立运行的测试对数损失的平均值和标准差:DCN:0.4422 ± 9 × 10−5,DNN:0.4430 ± 3.7 × 10−4,DC:0.4430 ± 4.3 × 10−4。可以看出,DCN始终大大优于其他模型。DCN和DNN的比较考虑到交叉网络只引入了O(d)的额外参数,我们将DCN与其深度网络-传统的DNN进行了比较,并给出了不同内存预算和丢失容忍度的实验结果。在下文中,一定数量的参数的损失被报告为所有学习率和模型结构中的最佳验证损失。在我们的计算中省略了嵌入层中的参数数量,因为它与两个模型相同。
表2报告了实现期望的对数损失阈值所需的最小参数数量。从表2中,我们可以看到DCN的内存效率几乎比单个DNN好,因为交叉网络能够更有效地学习有界度特征交互。
在这里插入图片描述
表2:实现期望的对数损失所需的参数数量。

表3比较了固定内存预算下神经模型的性能。正如我们所看到的,DCN一直优于DNN。在小参数范围内,交叉网络中的参数数量与深度网络中的参数数量相当,明显的改进表明交叉网络在学习有效特征交互方面更有效。在大参数范围内,DNN缩小了一些差距;然而,DCN仍然远远优于DNN,这表明它可以有效地学习某些类型的有意义的特征交互,即使是一个巨大的DNN模型也不能。
在这里插入图片描述
表3:不同内存预算下的最佳对数损失。
我们通过说明将交叉网络引入给定DNN模型的效果来更详细地分析DCN。我们首先比较了DNN与DCN在相同层数和层大小下的最佳性能,然后对于每种设置,我们展示了验证logloss如何随着添加更多的交叉层而变化。表4显示了DCN和DNN模型在对数损失方面的差异。在相同的实验设置下,DCN模型的最佳对数损失始终优于相同结构的单个DNN模型。这种改进对于所有超参数都是一致的,从而减轻了初始化和随机优化带来的随机性影响。
在这里插入图片描述
表4:DCN和DNN之间验证对数损失(×10−2)的差异。DNN模型是交叉层数设置为0的DCN模型。负值意味着DCN优于DNN。
在这里插入图片描述

图3:随着跨层深度的增加,验证对数损失有所改善。具有0个交叉层的情况相当于单个DNN模型。在图例中,“layers”是隐藏层,“nodes”是隐藏节点。不同的符号表示深度网络的不同超参数。

图3显示了我们在随机选择的设置上增加交叉层的数量时的改进。对于图3中的深度网络,当1个跨层添加到模型中。随着引入更多的交叉层,对于某些设置,对数损失继续下降,表明引入的交叉项在预测中是有效的;而对于其他设置,对数损失开始波动,甚至略有增加,这表明引入的更高程度的特征相互作用没有帮助。

4.5非CTR数据集

我们表明,DCN表现良好的非CTR预测问题。我们使用了来自UCI存储库的森林覆盖类型(581012个样本和54个特征)和Higgs(11 M个样本和28个特征)数据集。数据集被随机分为训练集(90%)和测试集(10%)。对超参数进行网格搜索。深层的层数从1到10不等,层的大小从50到300。交叉层数为4 ~ 10层。剩余单元数为1 ~ 5,输入维数和交叉维数为50 ~ 300。对于DCN,输入向量直接馈送到交叉网络。对于森林覆盖类型数据,DCN以最少的内存消耗达到了最好的测试精度0.9740。DNN和DC都达到了0.9737。对于DCN,最佳超参数设置为8个大小为54的交叉层和6个大小为292的深层,对于DNN,最佳超参数设置为7个大小为292的深层,对于DC,最佳超参数设置为4个输入维度为271,交叉维度为287的残差单元。对于Higgs数据,DCN达到了最佳测试logloss 0.4494,而DNN达到了0.4506。DCN的最佳超参数设置为4个大小为28的交叉层和4个大小为209的深层,DNN的最佳超参数设置为10个大小为196的深层。DCN的性能优于DNN,其内存使用量仅为DNN的一半。

5 结论和今后的方向

识别有效的特征交互是许多预测模型成功的关键。令人遗憾的是,这个过程需要手工特征创建和详尽的搜索。DNN在自动特征学习方面很受欢迎;然而,学习的特征是隐式的,高度非线性的,并且网络可能是在学习某些特征时不必要的大和低效。本文提出的Deep & Cross网络可以处理大量的稀疏和密集特征,并与传统的深度表示联合学习有界度的显式交叉特征。交叉特征的程度在每个交叉层处增加1。我们的实验结果表明,在稀疏和密集数据集上,在模型精度和内存使用方面,它优于最先进的算法。我们希望进一步探索在其他模型中使用交叉层作为构建块,为更深的交叉网络提供有效的训练,研究交叉网络在多项式逼近中的效率,并更好地理解其在优化过程中与深度网络的相互作用。

复制代码
    REFERENCES
    [1] Mathieu Blondel, Akinori Fujino, Naonori Ueda, and Masakazu Ishihata. 2016.
    Higher-Order Factorization Machines. In Advances in Neural Information Pro-
    cessing Systems. 3351–3359.
    [2] K. Canini. 2012. Sibyl: A system for large scale supervised machine learning.
    Technical Talk (2012).
    [3] Olivier Chapelle, Eren Manavoglu, and Romer Rosales. 2015. Simple and scal-
    able response prediction for display advertising. ACMTransactions on Intelligent
    Systems and Technology (TIST) 5, 4 (2015), 61.
    [4] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra,
    Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, and
    others. 2016. Wide & Deep Learning for Recommender Systems. arXiv preprint
    arXiv:1606.07792 (2016).
    [5] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2015. Deep residual
    learning for image recognition. arXiv preprint arXiv:1512.03385 (2015).
    [6] Sergey Ioffe and Christian Szegedy. 2015. Batch normalization: Accelerating
    deep network training by reducing internal covariate shiſt. arXiv preprint
    arXiv:1502.03167 (2015).
    [7] Yuchin Juan, Damien Lefortier, and Olivier Chapelle. 2017. Field-aware factor-
    ization machines in a real-world online advertising system. In Proceedings of
    the 26th International Conference on WorldWide Web Companion. International
    World Wide Web Conferences Steering Committee, 680–688.
    [8] Yuchin Juan, Yong Zhuang, Wei-Sheng Chin, and Chih-Jen Lin. 2016. Field-
    aware factorizationmachines for CTRprediction. In Proceedings ofthe 10thACM
    Conference on Recommender Systems. ACM, 43–50.
    [9] Diederik Kingma and Jimmy Ba. 2014. Adam: Amethod for stochastic optimiza-
    tion. arXiv preprint arXiv:1412.6980 (2014).
    [10] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. 2015. Deep learning. Nature
    521, 7553 (2015), 436–444.
    [11] Steffen Rendle. 2010. Factorization machines. In 2010 IEEE International Confer-
    ence on Data Mining. IEEE, 995–1000.
    [12] Steffen Rendle. 2012. FactorizationMachines with libFM. ACMTrans. Intell. Syst.
    Technol. 3, 3, Article 57 (May 2012), 22 pages.
    [13] Walter Rudin and others. 1964. Principles of mathematical analysis. Vol. 3.
    McGraw-Hill New York.
    [14] J¨urgen Schmidhuber. 2015. Deep learning in neural networks: An overview.
    Neural networks 61 (2015), 85–117.
    [15] Ying Shan, T Ryan Hoens, Jian Jiao, Haijing Wang, Dong Yu, and JC Mao. 2016.
    Deep Crossing: Web-Scale Modeling without Manually Craſted Combinatorial
    Features. In Proceedings ofthe 22nd ACM SIGKDD International Conference on
    Knowledge Discovery and Data Mining. ACM, 255–262.
    [16] Gregory Valiant. 2014. Learning polynomials with neural networks. (2014).
    [17] Andreas Veit, Michael J Wilber, and Serge Belongie. 2016. Residual Networks
    Behave Like Ensembles of Relatively Shallow Networks. In Advances in Neu-
    ral Information Processing Systems 29, D. D. Lee, M. Sugiyama, U. V. Luxburg,
    I. Guyon, and R. Garnett (Eds.). Curran Associates, Inc., 550–558.
    [18] Jiyan Yang and Alex Gittens. 2015. Tensor machines for learning target-specific
    polynomial features. arXiv preprint arXiv:1504.01697 (2015).
    
    
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
      
    

全部评论 (0)

还没有任何评论哟~