1+1>2 LSTM与Transformer强强联合
2025深度学习发论文&模型涨点之——LSTM-Transformer
近年来,在深度学习领域中,LSTM-Transformer方向被视为一个极具研究价值的重要方向。该方法融合了长短期记忆网络(LSTM)与Transformer架构各自的优势,并因此更有效地处理序列数据。其中的长短期记忆网络(LSTM)是一种特殊的循环神经网络,在其门控机制与记忆单元的作用下,成功克服了传统循环神经网络(RNN)在处理长序列时出现的梯度消失或梯度爆炸的问题,并从而能够捕捉到序列中的长期依赖关系。另一方面,在自注意力机制的基础上运行的Transformer则能够并行地处理序列数据,并从而能够捕捉到序列中的全局依赖关系。
论文+代码
论文精选
论文1:
Ball Motion Pattern Analysis Based on Multi-Agent Sports Scenarios Utilizing Set Transformer and Hierarchical Bi-LSTM
基于集合变换器和层次双向LSTM从多智能体运动场景中推断球的轨迹
方法
集合转换器(Set Transformer):一种用于获取多智能体上下文的排列不变和等变表示的方法,在处理玩家轨迹数据方面具有重要应用
基于层次化架构的设计理念,在模型中实现了中间阶段对球员与球体互动关系的学习过程,并通过该机制用于推导球员运动轨迹的过程。
现实损失项(Reality Loss):为保证估计轨迹的真实性和合理性,在模型中引入现实损失项并配合后续处理流程;该方法仅适用于运动员在控球或传球动作时对足球运动轨迹进行建模。
后处理机制:遵循一定规则的后处理机制,用于判断球员控球情况以及球与球员之间的传递状态,并据此信息优化运动轨迹预测。

创新点
准确性与实用性方面表现突出:该模型计算出球员射门点位误差低于37米,并能实现射门成功率预测64.7%这一重要指标,在体育数据分析领域开创了数据获取新途径
成本效益:主要不依赖于高价值相机基础设施或复杂的手动流程,并主要基于可获得性的机器学习技术和球员追踪数据记录下的信息来减少数据采集成本。
自动化的事件标注:通过识别球类相关事件来实现对球类相关事件的半自动化标注,并且降低了人工参与的强度和时间;同时提升了整体处理效率。

论文2:
Rewiring the Transformer with Depth-Wise LSTMs
用深度LSTM重连Transformer
方法
深度LSTM(Depth-Wise LSTM):构建了一个创新性的Transformer架构模型,在其设计中通过深度LSTM机制将级联排列的Transformer层与子层进行关联,并综合管理着层内与层间的信息表示融合。该架构通过将各Transformer层输出视为时间序列中的单个时间步,并对这些时间步进行连贯的信息处理而实现对序列数据的有效建模。
归一化操作与前馈运算:表明Transformer内部的归一化操作与前馈运算能够被深度LSTM所整合,并通过深度LSTM与纯Transformer注意力模块相集成以取代残差连接机制
编码器与解码器之间的连接:详细阐述了使用深度LSTM进行编码器与解码器之间连接的方式,涉及自注意力机制、交叉注意力机制以及掩膜式自注意力机制的不同实现。

创新点
性能表现显著提升:在WMT 14英德/法任务和OPUS-100多语言NMT任务中,使用深度LSTM的6层Transformer模型明显提升了BLEU分数,在两个不同领域分别达到了提升了1.2个单位的效果。
在收敛性方面,实验结果表明:采用深度LSTM架构可实现最多支持24层结构的同时维持良好的训练效果;当模型设计为12层时,在保持训练精度的同时其计算效率已与常规架构下的24层模型不相上下;这进一步证明了每一层参数使用的效率得到了显著提升
计算效率:虽然具有更多的非线性操作,但实验结果表明其比标准Transformer更为高效。由于仅需较少层数即可达到相近性能,在多语言神经机器翻译(NMT)任务中应用深度LSTM模型可平均带来2.52个BLEU点的显著提升。

论文3:
DepGraph: Towards Any Structural Pruning
DepGraph:迈向任意结构剪枝
方法
该系统性创新性方法采用DepGraph表示框架来描述显式建模层间的相互关系,并通过系统性的分组耦合参数实现剪枝过程。
Network decomposition: Breaking down the network into finer, more fundamental components, which encompasses parametrizable layers and non-parametrizable operations, to facilitate modeling of dependency relationships.
构建了关于依赖关系的模型,在分解得到的网络结构基础上,并在此模型中明确区分了两种类型的依存关系:一层依存关系和同一层次内部的关系,并制定了相应的规范和规则
组级剪枝:开发出一种基于简单的范数规范的分组剪枝方法,在分组层次上优化参数配置,并通过分组训练使得具有零激活的神经元组合能够被安全移除

创新点
在剪枝技术领域具有广泛适用性的DepGraph首个支持多种架构类型的剪枝算法。
性能提升效果显著:在CIFAR-10数据集上应用DepGraph方法进行模型剪枝处理后,在ResNet-56架构下实现了模型加速效果显著提升至原来的约两倍半(具体为2.57倍),并且其准确率达到了93.64%,较未进行剪枝处理的原模型表现更为优异(准确率达到93.53%)。而对于ImageNet数据集上的ResNet-50架构,在采用DepGraph方法进行剪枝处理后不仅实现了速度提升幅度超过两倍(具体数值为超两倍),而且其性能损失仅限于降低幅度仅为0.32%,展现出良好的优化效果。
自动化:通过自动生成参数分组方式,在多种网络架构中显著提升了模型剪枝后的泛化性能,并不需要人工设计分组策略。

论文4:
A New Innovative Bidirectional LSTM and Transformer-Based Approach for Creating Tabla Music
一种用于生成Tabla音乐的新型Bi-LSTM和Transformer架构
方法
预处理:这一段代码将被用来对Tablafonic音乐的音频波形文件进行预处理。
双层循环神经网络模型:采用双层LSTM架构构建一个注意力机制来生成Tabla音乐的下一个序列。
Transformer模型:训练一个Transformer模型来生成Tabla音乐。
特征提取过程:在经过预处理后的音频数据中计算 mel 谱图和 MFCC 系列特征,并完成归一化处理。

创新点
该模型在 musical generation tasks上表现出卓越的性能,在Tablue音乐生成任务中取得了4.042的损失和1.0814的平均绝对误差(MAE),其生成的作品与专业艺术家的作品高度相似。
该模型在Tabla音乐生成任务中获得了55.9278的损失值和3.5173的MAE指标值,在此任务中虽然较Bi-LSTM模型表现略逊一筹,但仍能有效生成具有节奏性的Tabla序列。
音乐生成水平:由该系统生成的Tablature乐谱完美地融合了新奇与传统元素,并有效拓展了音乐创作的边界。
扩展潜力:借助于在更大规模的Tabla数据集上进行训练工作,模型性能能够得到进一步优化,并且还可以尝试生成其他类型的古典印度乐器音乐。

