【PaperReading】Deep Learning for Genomics: A Concise Overview
综述翻译:深度学习在基因组学数据上的应用
An Overview of Deep Learning in Genomics
摘要
突破传统模型的局限性
混合模型(Mixture Model)
-
3.深度学习结构体系:见解和注释
-
3.1 模型解释
-
3.2 迁移学习与多任务学习的结合
-
3.3 多模态数据融合的学习方法
-
4. 基因组学应用
-
- 4.1 基因表达
-
- 4.1.1 基因表达特征
-
4.1.2 基因表达预测
-
-
4.2 基因调控机制(Regulatory Genomics)
-
4.2.1 启动子与增强子(Promoters and Enhancers)
-
4.2.2 内含子剪接(Exon Skipping)
-
4.2.3 转录调节因子及其RNA相互作用(Transcriptional Regulators and Their RNA Interactions)
- 4.3 功能基因组学(functional genomics)
-
- 4.3.1 突变和功能性活动
-
4.3.2 亚细胞定位
- 4.4 结构基因组学(structural genomics)
-
- 4.4.1 蛋白质结构分类
-
4.4.2 蛋白质二级结构
- 4.4.3 蛋白质三级结构和质量评估
- 4.4.4 残基接触图(contact map)
-
-
5.挑战和机遇
-
-
5.1 数据的特性
-
- 5.1.1 类别分布失衡
-
5.1.2 不同类型的数据
-
数据的多样性与复杂的相关因素
-
5.2 特征提取
-
- 5.2.1 数字特征提取
-
-
5.2.2 特征代表性
-
6. 结论和展望
-
References
-
Deep Learning for Genomics: A Concise Overview
Tianwei Yue, Haohan Wang
Advancements in genomic research, including high-throughput sequencing techniques, have propelled modern genomic studies into the domain of "big data" disciplines. This surge in data volume is continuously posing challenges to traditional genomics methodologies. Concurrently with the pressing need for robust algorithms, deep learning has achieved remarkable success across diverse fields such as vision, speech, and text processing. However, genomics presents unique challenges to deep learning since we are expecting it to emulate superhuman intelligence beyond our current understanding for genome interpretation. A powerful deep learning model must effectively leverage task-specific knowledge for optimal performance. In this paper, we examine the strengths of different deep learning models from a genomic perspective to tailor each model for specific tasks using appropriate deep architectures. Additionally, we discuss practical considerations for developing modern deep learning architectures tailored for genomics applications. We also provide an overview of deep learning applications across various genomic research domains and highlight potential future opportunities and obstacles.

原文地址:https://arxiv.org/abs/1802.00810
摘要
基因组学的研究(尤其是高通量研究)带来了大量的数据。这些数据对传统的算法提出挑战,迫切地期待稳定(鲁棒性)的新算法。深度学习(deep-learning, DL)很好地完成了图片、声音、文字处理的任务。人们期待深度学习也能应对基因组数据,挖掘出超越已有知识的新知识。而构建好的深度学习模型必然要基于对相关的特殊任务充分了解的基础之上。这篇文章中,我们简要地讨论了从基因组学角度,不同算法的长处,并评述了建立模型过程中需要考虑的实用问题。我们还提供了对于不同的基因组学任务的合适算方法的简要综述,并指出目前的挑战和潜在的研究方向。
1.前言
Watson et al.于1953年首次明确了DNA分子作为携带遗传信息的物理介质这一关键发现后,人类持续致力于收集相关生物数据,并借助基因数据深入解析生物运行机制。1990年启动的'人类基因组计划'至2001年已初步构建了一个参考人类基因组序列,标志着现代分子生物学的重要里程碑。随后,'FANTOM'(Kawai et al., 2001)、'ENCODE '(Consortium et al., 2012)以及'Roadmap Epigenomics'(Kundaje et al., 2015)等重大基因组项目相继取得突破性进展,共同推动了生命科学领域的革命性发展。这些开创性研究项目的成功实施,不仅为科学研究提供了海量可分析的DNA数据资源,更使得跨物种基因组比较研究成为可能,同时也为现代基因组学的发展奠定了坚实基础
基因组研究致力于探索不同物种的遗传信息库 。它关注各种具有遗传信息的关键因子及其在不同环境条件下的相互作用机制。与专注于少数特定基因的研究不同**[1]** ,[2] 基因组学从全局角度分析有机体内的全部基因及其调控网络 [3] 。例如,在人类基因组研究中包含30亿个DNA片段 [4] ,这些片段涵盖了编码蛋白质、RNA、转录调节元件、长程调控元件(LRE)以及转座子等多个功能类别 [5] 。随着测序技术的进步 [6] ,如更加经济高效的下一代测序技术能够完整解析生物体内所有的DNA序列 [7] ,使得基因组数据量呈现出指数级增长 [8] 。全球多个测序中心已分布在全球各大洲 [9] ,进一步推动了高通量测序技术向大众化方向发展 [10] 。这些海量数据不仅提供了丰富的资源库 [11] ,也为科学研究提供了强大的统计分析工具和数据支持 [12]
就另一个角度来看,在人工智能领域中,深度学习方法 为解决复杂问题提供了工具。它已被其在人工智能领域的革命性成就所证实为成功的方法,例如图像识别、目标检测、语音识别以及自然语言处理等领域。这一繁荣的基础架构主要包括自动编码器(autoencoder)、一系列其变体形式、多层感知机(multilayer perceptron, MLP)、受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)、深度信念网络(Deep Belief Network, DBN)、卷积神经网络(CNN)、循环神经网络(RNN)、及其它近期发展起来的新结构。这些内容将在后续部分进行详细阐述。而这些灵活且精确度极高的深度学习方法则在传统任务中表现得优于其他方法
深度学习方法与基因组学研究的交叉融合可能带来对基因组意义的重要发现,在包括精准医疗、药学以及农学等多个领域都有显著的应用价值。以医学领域为例,在包括基因治疗、分子诊断和个体化医疗等多个方面的应用都将通过高性能计算方法分析基因数据集而展现出显著的效果。此外,在研发新药的过程中通常周期漫长且成本高昂,并由医药公司通过匹配研究人员发现的候选蛋白与现有的药物分子进行相关研究。这些优势都表明采用针对性设计的深度学习方法能够加速基因产业发展的必要性。本文旨在简要概述现有深度学习技术在基因组研究中的应用现状,并探讨未来的发展方向。
按照如下结构安排:首先,在第二部分对以深度学习架构为特征的应用型基因组学研究进行了概述性介绍,并在第三部分进行了深入探讨。随后,在第四部分详细阐述了深度学习技术如何在其所涉及的多个基因组学应用领域发挥着作用。在此基础上,在第五部分归纳了当前面临的挑战以及未来可能的研究方向。最后,在第六部分对全文进行了总结
2.深度学习结构体系:基因组学角度
对于特定基因组学问题的求解而言,在选择深度学习算法时需权衡各方法的独特优势。例如,在图像分类中表现卓越的卷积神经网络(CNN)常用于提取基因组学数据的局部或全局特征。 recurrent neural networks(RNNs)在语音识别领域表现出色,并常被应用于DNA序列分析。而自动编码器则常用作预训练模型(pre-training model)或输入数据预处理与去噪工具。本文将回顾各种深度结构的具体细节及其优势如何助力特定基因组学研究课题。作为补充阅读材料,默认介绍较为深入的内容将超出本文范围;读者如有兴趣可参考经典教材(如Goodfellow等著,《深度学习》, 2016)或简明教程(如Wang等人编著,《机器学习入门》, 2017)。
2.1 卷积神经网络
卷积神经网络(Convolutional neural network, CNN)以其卓越处理特定数据的能力而闻名于成功图像处理深度学习领域
CNN的核心优势在于其自适应特征提取能力 。例如,在基因组分析中,CNN能够有效地识别具有细微变化但仍具重要性的重复模式(pattern),其中motif被定义为蛋白质结合时出现的小而保守序列片段(译者注)。这一特点显著提高了CNN在识别motif方面的性能,并进一步增强了其与分类任务结合的应用效果。近年来,基于CNN的方法在序列数据分析领域取得了显著进展。研究者们利用CNN发现了基因序列中特定的蛋白质结合位点(Alipanahi et al., 2015;DeepBind),以及非编码元件突变后功能结果预测(Zeng et al., 2016;DeepSEA)。此外,在功能区域分析方面取得突破性的成果(Kelley et al., 2016;Basset)。研究团队借鉴了类似的深度学习架构来分析DNA序列的功能性区域。
尽管已有研究表明CNN展现出显著优势, 但其架构设计若不合理可能会导致模型效果不如传统方法. 因此, 研究者应当致力于充分理解并优化CNN的功能, 使其能够恰当地匹配特定任务需求. 这种目标要求研究人员对CNN架构及其生物学基础有深入掌握. Zeng等人(2016)提出了一种参数化设计的CNN模型, 主要用于发现motif(motif discovery)及其定位(motif occupancy)两大类任务. 在超参数优化方面, 他们采用了Mri方法评估了9种不同架构的CNN模型. 研究者指出, 对于发现motif的任务而言, 只要架构合理, 深度增加并不会带来实质性能提升. 这是因为基因组学领域中深度学习模型通常存在过度参数化现象(over-parameterization), 单纯调整深度难以显著改善性能表现. 因此, 研究者更应关注一些关键因素: 如卷积核(kernel size)的设计、特征图(feature map)的有效利用、池化层或卷积层架构的选择(pooling or convolution kernels)、以及DNA序列窗宽(window size)的优化等. 此外, 引入以往基因组学领域的知识(prior genomic information)也值得探讨和尝试.
2.2 循环神经网络
循环神经网络(Recurrent Neural Networks)以其擅长处理数据流的能力闻名**
这种环状结构使RNN呈现一种浅显的状态,在长时间预测任务中其内部层次展开得非常深入。为了应对深度带来的梯度消失问题,Hochreiter 和 Schmidhuber (1997)提出了一种创新方法:将传统RNN中的隐藏单元替换为长短时记忆单元(Long Short Term Memory, LSTM),从而实现了对梯度传播路径的有效控制。这一改进使得网络能够更有效地捕捉长期依赖关系。随后,Gated Recurrent Units (GRUs),由 Cho 等人于2014年提出,在同样目标导向下进一步优化了循环神经网络的性能。
基因组学数据通常被视为序列形式的数据 ,并被视为生物界的"口才" 。循环模型因此在多个领域发挥着重要作用。例如,在Cao等人(2017b, ProLanGO)的研究中 ,他们开发了一种基于长短期记忆网络(LSTM) 的机器翻译技术 ,这种技术通过将蛋白质视为基因本体学术语(Gene Ontology terms) ,成功地将蛋白质功能预测问题转化为语言翻译任务 。Boˇza 等人(2017)发明了DeepNano ,用于识别碱基(base calling),Quang和Xie (2016)提出了DanQ ,用于量化非编码DNA的功能 ,而Sønderby et al. (2015)则设计了一个卷积LSTM网络 ,用于预测蛋白质亚细胞定位(subcellular localization)等关键信息 。最近提出的seq-to-seq RNN模型能够有效处理不同长度的输入序列,并将其映射至相应的目标序列或固定尺寸的结果预测,在基因组学研究领域展现出巨大潜力 。例如,在Busia等人(2016)的研究中 ,他们巧妙地应用了seq-to-seq学习方法来预测蛋白质二级结构 。
2.3 自编码器
最初自编码器被用作初始化网络权重的预处理工具,在之后逐渐发展出多种变体形式。这些变体包括后来发展的堆叠自编码器(stacked autoencoders, SAEs; Bengio et al., 2007)、降噪自编码器(denoising autoencoders, DAs; Vincent et al., 2008)以及收缩自编码器(contractive autoencoders, CAEs; Rifai et al., 2011)。由于其通过编码-解码(encode-decode)过程学习输入数据的紧凑表示(compact representation),自编码器已被证明能够有效地进行特征提取任务。例如,在Gupta等人(2015)的研究中他们采用了堆叠降噪自编码器(stacked denoising autoencoders, SDAs)来进行基因聚类任务。研究者们通过要求学习到的数据表示能够对抗原始数据的部分损失(partial corruption)来提取数据特征,并在此过程中取得了显著成果;具体案例可参考第4.1.1节的相关讨论。此外,在另一些研究中还被用于基因表达数据分析中的降维处理 ,例如Tan等人(2014, 2016, 2017)的工作展示了这一技术的应用潜力。需要注意的是,在应用自编码器的过程中,研究人员发现提高重建精度未必能带来模型效果的提升(Rampasek and Goldenberg, 2017)。
变分自编码器
2.4 新的深度学习结构体系
考虑到基因组学领域的持续成功应用,在这一领域中研究人员预期其精确度能超越传统的统计学和机器学习方法。当前大多数研究主要采用基于传统深度结构的新颖架构或混合架构来处理相关问题。本文回顾了近期一些创新性修改方案及其与传统深度学习框架相结合的应用。
2.4.1 超越传统的模型
大多数新出现的结构源自传统深度学习模型经过修改后形成的成果。研究人员根据基因组学相关经验开始选择更适合特定问题的应用型或更先进的模型以应对挑战。
这种方法实现了对序列特性和双序列特性的统一建模** ,从而实现了对蛋白质接触状态的有效预测。
2.4.2 混杂模型
基于各类型深度学习模型各自的优劣势的基础上,研究人员开发了混合结构以整合多种深度学习架构的独特能力。该混合模型体系中,DanQ (Quang and Xie, 2016)作为一项创新性成果,成功实现了卷积神经网络(CNN)与循环神经网络(RNN)的优势融合,仅需通过序列数据分析就能准确预测非编码DNA的功能特征。研究者将DNA序列经独热编码(one-hot)转换后作为输入数据,并将其传递至一个简化的CNN架构中以识别潜在的关键序列模式(motifs)。该研究工作受到以下两个关键因素启发:一是motif模式可以通过其在DNA序列中的空间排列方式以及频率特性来确认;二是CNN算法具备的学习能力可捕获潜在的关键模式特征(purported motifs)并将其反传至BLSTM架构中进行分析。Lanchantin等人(2016b, Deep GDashboard)进一步探讨了类似的卷积-循环设计架构,并提出了一种新的分析视角即基于可视化技术深入解析模型自动生成的核心特征的有效性证据。基于其针对转录因子结合位点分类任务的研究结果,Sønderby等研究者认为采用CNN-RNN组合架构能够显著超越单一类型的CNN或RNN架构性能表现;而Deep GDashboard所提出的特征可视化方法则揭示了该体系对建模motif及其相互依赖关系的独特优势所在。Sønderby等研究者在原有数据集基础上引入了一层额外的卷积层以强化蛋白质分选与亚细胞定位问题建模效果;该创新性方法获得了比现有基准模型更高的精确度评估指标并且无需依赖人工设计的特殊特征参数化构建过程能够实现对蛋白质亚细胞定位功能的有效预测;Almagro Armenteros等人则提出了一个包含RNN、BLSTM、注意力机制及全连接层等四个独立模块组成的混合型神经网络体系旨在实现对蛋白质亚细胞定位功能的整体性预测框架;这一创新性研究方法受到了包括Singh et al. (2016b)在内的多位研究者的广泛关注与认可
3.深度学习结构体系:见解和注释
在基因组学领域中, 深度学习的应用已充分展现了其重要性. 尽管该方法已被广泛应用于多个研究方向并获得了认可, 然而它缺乏直观性(即物理透明性)的特点, 因此难以通过可解释的方式深入理解其中的工作原理. 幸运的是, 在可解释性方面取得了一定进展的同时, 许多研究者们致力于开发新的可视化工具和方法以提升模型透明度. 这也是我们在选择适合的研究方法时需要综合考虑的重要因素之一. 在这一部分中, 我们回顾了几项有助于深化对深度学习机制理解的关键可视化技术, 并强调在实际应用中应特别注意模型设计中的可解释性考量.
3.1 模型解释
此外,人们不仅期望深度网络能够实现预测目标,还希望识别出具有意义的DNA序列特征,并对已解决的问题进行了展望.在应用层面,模型的可解释性显得尤为关键.然而,尽管深度学习技术在提升预测精度方面表现出色,其计算复杂度却呈现出指数级增长.各层神经元之间的连接关系极其复杂,信息在网络中广泛传播,导致对其机制的理解难度较大.随后,随着仅依赖预测精度无法充分证明深度学习方法优于传统统计学与机器学习的事实逐渐被认可,研究者们投入了大量精力来解决这一问题.
研究者普遍关注于通过深度学习模型解析图像分类机制。
此类研究在探索深度学习网络本质方面展现出巨大潜力。随着人们对模型可解释性的期待逐渐增强后,近期的深度学习应用实践中,每当出现新模型时,都会伴随着相应的可视化策略提出。例如,Mikolov等(2013b)、Min等(2016)、Riesselman等(2017)等研究者均在这方面做出了重要贡献
3.2 迁移学习(transfer learning)和多任务学习(multitask learning)
迁移学习的概念源自人类能够运用先前的知识以解决新问题的能力。迁移学习的框架允许深度学习利用先前训练好的模型以有效应对相关的新问题 。它已被成功应用于多个领域,包括语言处理(language processing)和视听识别(audio-visual recognition)。读者可参考Pan和Yang (2010)或Weiss等人(2016)对迁移学习的研究文章。多任务学习是一种归纳性地在多个任务中分享知识的方法。通过在一个共享的结构中并行进行相关任务的学习过程,在一个任务中习得的知识可辅助其他任务的学习 。Ruder (2017)对神经网络中的多任务学习进行了详细概述。Widmer和R¨atsch (2012)则从生物科学角度对其进行了简要探讨。
早期基因组学中迁移学习的应用是基于类似支持向量机(SVMs)的机器学习模型 。最近的研究也包括了深度学习比如,Zhang等人(2016)发展了一个CNN模型,可以通过分享基因表达图像(gene expression images)来自动化控制字集(controlled vocabulary,CV)术语的标注 。他们首先在ImageNet上预训练模型,在不同尺度上提取整体特征。然后通过多任务学习微调模型来捕获CV术语特异性的鉴别信息。. Liu等人(2016a)发展了一个迭代的PEDLA( predicting enhancers with a deep learning-based algorithmic framework)来在多种细胞和组织间预测增强子 ,他们首先以无监督模式利用任意一种细胞类型或组织的数据预训练PEDLA,然后以此模型为初始化,在监督模式下使用下一种细胞类型或组织来迭代微调模型。Cohn等人 (2018)在不同物种/数据集的训练网络间迁移参数以识别增强子。Qin和Feng (2017, TFImpute)应用了一个基于CNN的多任务学习设置。他们通过借用不同转录因子(TF)和细胞系(cell line)的信息,实现了仅凭少量ChIP-seq数据,就为TF-cell line结合预测了细胞特异的TF结合。他们可以通过有ChIP-seq数据的TF,进行无监督模型训练后,预测新的细胞类型里的TF。Qi 等人(2010) 提出了一个半监督的多任务框架以预测蛋白质-蛋白质相互作用(protein-protein interaction,PPI) 。他们应用有监督训练后的多重感知机(MLP)分类器完成辅助任务,以影响部分标注样本(partially labeled examples)。辅助任务的损失(loss)是加到MLP里,因此两个任务可以最优化结合。Wang等人(2017b)致力与同一个问题,他们引入了多任务卷积网络模型来学习代表性(representation)。Zhou和Troyanskaya (2015)合并多任务方法,通过联合学习(jointly learn)不同的染色质因子(chromatin factors)来预测染色质上非编码突变的效果 。
在多种相关任务(迁移学习)或子任务(多任务学习)间共享知识以促进信息传播的想法有助于提升有限数据集的有效性,尤其是在昂贵的基因组学研究中显得尤为重要.此外,迁移学习也被用于应对类内数据分布不均衡的问题.然而,由于深度神经网络模型通常需要大量时间和计算资源来进行训练与优化,因此建立一套针对特定类型基因组学问题的高效建模架构可能会受到研究人员的高度关注并被广泛采用.
3.3 多视角学习(multi-view learning)
鉴于现有的技术已经获取具有异质性特征的数据集,在深度学习领域中显然成为未来研究的重要方向之一。该方向的核心在于挖掘不同数据集之间的信息并提取其高阶相关性以提升预测能力;通过聚类分析并有效处理不完整数据以增强模型性能。读者可参考Li等人的综述性文章以了解多视角学习方法的基本框架与应用现状。在多个研究领域中存在多种交叉应用的可能性:例如,在计算机视觉领域中可同时拥有音频与视频信号;而在基因组学研究中则可整合来自不同层次的数据类型(如DNA甲基化、基因表达及miRNA表达)。值得注意的是,在当前高通量测序技术背景下同一肿瘤样本通常可提供多样化的表观遗传与分子水平信息;因此从多维度综合分析问题往往能够显著提升预测精度与模型鲁棒性。此外,Gligorijevi´c与Prˇzulj等人的综述进一步探讨了多视点生物数据分析整合的方法及其潜在应用场景
多视角学习可以通过融合特征(fusing features)]、综合方法(integrative methods)或者多模态学习(multi-modal learning)]的方式来实现。具体而言,在每个视角的数据中选择特定的深度学习模型作为整体模型的一部分,并在更高层次上对其进行整合。例如,在之前的研究中提到过一种超深度神经网络架构[4]。这种架构利用一维卷积神经网络处理序列特征、二维卷积神经网络处理空间特征,并将这两种结果结合起来用于聚类肿瘤患者、定义肿瘤亚型等任务。Liang等人(2015)[5]开发出了一种多模态深度信念机器(DBM),用于融合基因表达、DNA甲基化、miRNA以及药物反应数据来进行癌症患者的聚类分析与肿瘤亚型划分。他们的研究采用对比散度算法训练了堆叠高斯受限玻尔茨曼机(gaussian restricted boltzmann machines, gRBM),并通过层层递进的方式融合各模态信息以提取共同特征(common features)。这些方法可以在Pan和Shen(2017)[6]以及Zhang等人(2015)[7]等文献中找到更多应用实例。
4. 基因组学应用
本节我们将对能够通过深度学习方法进行分析处理的若干基因组学问题进行综述介绍,并将探讨这些领域内深度学习技术的发展演变及其应用前景。
4.1 基因表达
基因表达是一个高度受控的过程,在此过程中,DNA中的遗传信息被转换为功能性产物,例如蛋白质或其他分子.这一过程不仅依赖于自身的调控机制,还受到外界环境因素的影响.换言之,基因编码蛋白质合成的过程,并通过调节产生不同种类和数量的蛋白质来自我调控细胞功能.我们在这里回顾了一些应用深度学习研究基因表达调控机制的相关研究.
4.1.1 基因表达特征
随着技术的发展和应用的进步
早期研究采用了主成分分析法(principal component analysis, PCA)来对基因表达数据进行聚类分析。然而,初步实验结果表明这种计算工具在处理某些复杂生物学问题时存在明显局限性。随着交叉实验数据集的可靠度受到技术噪音和实验条件不匹配等因素的影响,
研究人员转而选择先对已有数据进行去噪与强化,
而不是直接寻找主成分。
自从降噪自编码器不仅仅保留原始数据信息,而且能产生所有输入样本的输入分配(input distribution)的有意义且重要的性质后,人们就开始使用它了。即便是层次很浅的降噪自解码器也被证明能有效提取生物学见解。Danaee 等人 (2017)应用栈式降噪自编码器(stacked denoising autoencoders,SDAs)从基因表达谱数据中检测乳腺癌的功能性特征 。Tan 等人 (2014, ADAGE)提出一种应用SDA的无监督方法来捕获乳腺癌数据中的关键生物学原理(key biological principles) 。ADAGE是一个从大尺度基因表达数据集中提取相关模式的开源项目 。 Tan 等人 (2016)进一步发展ADAGE来成功提取临床特征和分子特征。为了产生更好的符合生物学通路的标记(Signatures)并增强模型的鲁棒性( robustness ),Tan等人 (2017)发展了一个集成ADAGE( ensemble ADAGE,eADAGE )来整合模型中的稳定标记。这三个类似的工作都在铜绿假单胞菌( Pseudomonas aeruginosa )的基因表达数据上实验过。此外,Gupta等人(2015)确认了通过多层降噪自编码器处理增强数据( enhanced data )可以将酵母菌的微阵列分析表达数据( expression microarrays)聚类到已知的代表细胞周期进程的模块中。受到酵母菌的转录组学系统的分层结构的启发, Chen等人(2016b)应用了一个四层自编码器网络处理基因表达数据,每一层对应一个特殊的生物学进程。这个工作将稀疏性( sparsity )引进自编码器。前述研究已经清楚描绘了降噪自编码器的前沿进展超过主成分分析和独立成分分析( independent component analysis,ICA)。
一些研究围绕'变分推理方法'这一主题展开探讨,并认为这种方法展示了捕捉复杂数据内生关联能力的优势。Way和Greene (2017a)开发出一种基于变分自编码器的新工具,用于分析基因表达路径中的潜在模式,并与现有的降维技术进行了系统对比分析。Dincer等学者(2018)构建了一个基于VAE的新框架,能够有效提取与急性髓系白血病相关的关键变量。此外,Sharifi-Noghabi等人(2018)提出了一个由两个独立VAE组成的深度遗传标志框架,通过分别训练标记和非标记数据集来预测转移风险。
另一种涉及用深度学习来描述基因表达的关键点是其基于两两比对关系的研究。 Wang等人(2017b)表明,在分析成对基因时, 卷积神经网络(CNN)能够有效地取代传统的皮尔逊相关性分析方法。 基于此发现, 在构建模型时综合运用了与基因本体学语义相关的知识以及各组分之间的相互作用机制, 并在此基础上发展出一个参数共享型网络架构。
4.1.2 基因表达预测
深度学习在基因表达预测方面展现出了超越传统算法的优势。例如,Chen团队(2016c)通过开发一种三层前馈神经网络(feed-forward neural network)成功实现了选择地标基因表达量的预测任务,其性能显著优于线性回归方法。该模型命名为D-GEX,它采用了多任务学习框架,并通过microarrays和RNA-Seq数据集上的测试验证了其有效性。Xie团队(2017)则通过构建基于多层感知机(MLP)与栈式降噪自编码器(Stacked Denoising Autoencoder)相结合的深度学习模型,在从单核苷酸多态性基因型(SNP genotypes)中预测基因表达量化图(gene expression quantifications)方面实现了突破性进展,其性能明显优于Lasso和随机森林(Random Forests)方法。
在基于基因序列的数据进行预测的过程中,在这一领域的应用成果尤为突出。具体而言,在识别特定位置上的DNA序列及其周围的上下文特征方面取得了显著进展;通过进一步分析推导出调控机制,则能够被用来构建基因表达模式的基础框架。这些研究工作建立在对生物学原理和机制深入理解的基础上,并非仅仅停留在表面层面;相反,在提取和分析DNA序列及其相关上下文信息方面具有更强的能力而非直接用于预测目的。该领域的发展可追溯至早期的人工智能研究阶段,在此过程中一些关键研究工作主要集中在利用贝叶斯网络等统计方法来识别和分析基因活性模式。
在多数应用场景中,深度学习算法的能力受限于生物学特性。因此, 融合表观遗传学特征有助于提升模型的解释能力。例如, 在Lim 等人(2009)、Cain等人(2011)以及Dong 和Weng (2013)的研究中, 实证发现组蛋白修饰作用( histone modifications )与基因调节行为之间存在关联关系, 并已被多篇深度学习研究证实(Karli´c et al., 2010; Cheng et al., 2011; Dong et al., 2012; Ho et al., 2015)。Singh 等人(2016a)提出的DeepChrome 框架, 即在卷积神经网络(CNN)上叠加一层多层感知机(MLP)的统一判别式架构( unified discriminative framework ), 在二元分类任务(如基因表达水平高或低预测)中表现出平均面积 Under ROC 曲线(AUC)为 0.8 的优异性能。为此, 将输入数据划分为若干区间(bins)以便实现场验性地发现不同组蛋白修饰信号( histone modification signals )之间的组合相互作用( combinatorial interactions )。随后, 模型提取出的区域代表性( region representation )通过多层感知机分类器( MLP classifier )进一步映射为基因表达水平预测指标。值得注意的是,Singh等人(2016a, DeepChrome)还实现了对高级别组合关系( high-order combinatorial interaction patterns )的学习与可视化功能, 这使得模型具备了较强的解释性能力。此外, 其他表观遗传信息如DNA甲基化、miRNA、染色质特征等也可用于基因表达预测任务中
生成模型因其具备捕捉复杂潜在关联的能力而得到了广泛应用
4.2、调节基因组学(regulatory genomics)
基因表达调控是一个调节基因产物(mRNA和蛋白质)表达水平高低的关键生物体细胞过程。它增强了生物体的多功能性,并使其能够更好地适应外界环境。
然而, 序列潜在的内部依赖性(interdependencies)限制了传统方法的灵活性. 但是, 深度学习通过建模过度表达(over-representation)的序列信息, 因此可能能够识别出调控motifs, 并在基于其目标序列的情况下实现相应的功能.
4.2.1 启动子和增强子
一种生物在基因调控阶段的转录水平上存在有效的基因表达调控机制。增强子与启动子是最能发挥功能作用的非编码DNA片段。它们属于顺向作用元素(cis-regulatory elements, CREs)。通过阅读Wasserman和Sandelin (2004)以及Li等人(2015a)的综述资料,读者可以探索早期识别CREs的方法。
启动子位于基因转录起始位点附近,并且能够诱导特定基因的转录过程。
PEDLA是一种由Liu等人 (2016a)构建的基于深度学习的增强子预测算法体系。该系统能够通过异质性类别平衡数据集训练出一个增强子预测器,并能够从多种细胞类型或组织样本中生成相应的预测模型。该模型具有内在平衡机制,在这一问题域内推断出各个类别的先验概率。值得注意的是,PEDLA最初主要在H1细胞中的9种亚类样本上进行初步训练,并随后逐步扩展至动态迭代优化方案
Min 等人(2016, DeepEnhancer)采用了卷积神经网络(CNN),其在一项特定研究中显著超越了基于序列的数据驱动支持向量机(SVM)方法。该研究聚焦于从背景基因组学序列(background genomic sequences)中识别增强子这一关键任务。研究者探讨了不同架构设计下的CNN性能,并得出了结论:最大池化(max-pooling)和批归一化(batch normalization)技术对于提升分类精度发挥着重要作用。他们进一步认为,在某些情况下若模型设计不够合理,则单纯通过增加网络深度并不能带来实质性的提升效果。最终所构建的模型是基于迁移学习原理,在FANTOM5许可的增强子数据集上进行训练后经ENCODE细胞类型特异性数据集优化而获得
Yang 等人(2017)报道了一种结合CNN和RNN的新方法BiRen, 仅凭DNA序列即可预测增强子的作用位置
深度特征选择(Deep Feature Selection, DFS)是Li等人 (2015b)在深度学习框架中引入稀疏性的一项探索 。通常情况下,稀疏性通过引入正则化项来实现(如LASSO、Elastic Net等)。Li等人 (2015b)提出了一种创新方法,在该方法中他们能够在输入层自动识别一组激活的特征子集以减少维度。这一过程通过在输入数据与输入层之间添加一层稀疏的一对一线性层来实现。DFS具有广泛的适用性,在MLP等浅层架构中已经被实现为浅层DFS;在更深架构如DNNs中则发展为深层DFS;并且当反向传播在深层网络中效果不佳时,可采用栈式收缩自编码器和基于DBN的DFS模型进行微调训练。此外,作者还开发了一个公开可用的DFS工具包,并表明其相比弹性网络和随机森林能够更有效识别关键基因调控元件。随后的研究者进一步发展了这一框架,在全基因组范围内检测调控区域。
Enhancer-promoter interaction通常依赖于功能性基因组学信号中的非序列特征。Singh等人(2016b, SPEID)开发出首个能够在全基因组范围内推测Enhancer-promoter相互作用的深度学习方法。该方法仅需基于序列数据即可运行,并且还可以针对特定细胞类型中预设的Enhancers和Promoters位置进行分析。他们的研究结果表明该模型在性能上优于现有的DeepFinder工具。这一混合模型包含两个关键组成部分:第一部分负责区分潜在特征间的差异,这些特征可通过启动子与增强子之间的相互作用而获得;第二部分则采用长短期记忆网络(LSTM),通过整合有信息意义的子序列特征来实现有用组合**。(Enhancer-promoter interaction typically relies on non-sequence features in functional genomic signals; Singh et al.(2016b, SPEID) developed the first deep learning method capable of predicting enhancer-promoter interactions genome-wide; this method only requires sequence-based data and can also analyze pre-specified enhancers and promoters in specific cell types; their results demonstrate that this model outperforms existing DeepFinder tools; the hybrid model comprises two key components: the first differentiates between potential features obtained from interactions between promoters and enhancers; the second employs an LSTM to integrate informative subsequential features for effective combination)
在本段中重点强调的是类别不平衡数据集(class-imbalanced datasets)。这种类型的数据集普遍存在于各种生物信息学分析任务中。其本质特征在于该问题普遍存在于启动子与增强子识别过程中。关于这一挑战的具体解决方案将在5.1.1节中详细探讨。例如,Liu et al.(2016a) 和 Singh et al.(2016b)对此进行了深入研究。
4.2.2 剪接
修饰前体信使RNA(pre-mRNA)使其经剪接后生成成熟的mRNA的过程 ,该过程使mRNA得以翻译成多样的蛋白质。这一操作显著提高了蛋白质种类的多样性。预测‘剪接密码’即研究剪接如何调控并展示出蛋白质功能变化的方式。对于深入理解蛋白质如何通过多种途径产生这一本质问题至关重要。
最初的研究探索主要集中在**朴素贝叶斯模型(Naive Bayes model)以及基于序列特征构建的两层贝叶斯神经网络上。早期在调控基因组学领域的神经网络仅借鉴了传统机器学习架构的基本模式。例如,在2015年Xiong团队开发了一个全连接前馈神经网络,并利用全基因组外显子跳跃事件进行了训练。该模型能够有效预测任意mRNA序列中的剪接调控机制,并在此基础上分析了近50万个人类基因组中的mRNA剪接密码表型,在识别数百个已知致病突变的同时还发现了大量潜在致病剪切位点(disease-causing candidates)。这一研究实例表明成功的机器学习应用往往源于适当的数据来源而非过于复杂的描述性建模策略(descriptive model design)。Lee与Yoon于2015年提出了基于深度信念网络(DBN)的方法,在解决类别不平衡预测问题的同时还能识别非规范剪接位点(non-Canonical)。此外他们还提出了一种新的训练方法被称为"具有绝对梯度提升的改进对比散度"(boosted contrastive divergence with categorical gradients),并通过实验验证其较传统对比散度方法具有更好的预测性能且运行时间显著缩短。
在许多实例中观察到了可替代的剪接现象。具体而言,在基因剪接过程中同一个基因的不同外显子组合会导致多种独特的蛋白质生成。这构成了转录后调控机制的关键影响因素之一,并为蛋白质组学的多样性提供了理论基础。Leung等人(2014)构建了一个包含三层隐藏层的深度神经网络(DNN)模型,在个体组织中的可选择剪接模式预测以及跨组织差异检测方面表现突出。该模型通过整合细胞类型信息提取基因组特征,并成功实现了这一应用领域的初始探索工作。Jha等人(2017)在此基础上提出了一种综合型深度学习模型,在原有BNN(Xiong等, 2011)和DNN(Leung等, 2014)模型的基础上进行了扩展与优化。他们引入了新的基准线分析方法并整合了额外实验数据(如细胞类型信息),同时提出了一种新的目标函数以进一步提升模型性能能力
4.2.3 转录因子和RNA结合蛋白
作为细胞基因调控的重要分子机制之一的转录因子(Transcription factors, TFs),其名称本身就说明其在细胞中发挥关键作用。与此同时,在生物体内起到调节功能的核心成分还包括一类称为RNA结合蛋白( RNA-binding proteins )的蛋白质分子。这些分子在DNA序列上定位特定的启动子区域或增强子区域的能力是值得商榷的。然而,在现代生物研究中对特定转录因子选择性靶标的高通量测序技术面临诸多限制因素:一方面由于效率低下且成本高昂;另一方面则难以实现精准筛选所需目标。为此研究者们转而寻求计算机辅助的方法来进行预测工作:最初的尝试主要依赖于基于一致性的方法或其替代方案;随后则引入了位置加权矩阵这一更为精细的技术手段;继而发展出了支持向量机(Support vector machines, SVMs)等机器学习模型,并最终将k-mer特征作为主要分析指标;相较于之前的生成模型
现有深度学习模型的大量研究均致力于解决转录因子结合位点(TFBS)预测任务这一关键问题。Alipanahi等的研究人员(2015年发表的DeepBind论文)首次展示了利用卷积神经网络(CNN)处理大规模问题的能力。随后,在2017年的研究中,Chen等人结合了CNN的学习表示方法与再生核希尔伯特空间的独特优势,并提出了一种称为卷积核网络(Convolutional Kernel Networks, CKN)的新方法来实现可解释性更强的TFBS预测。Zeng等人则完成了基于大规模转录因子数据集对CNN架构系统性分析的工作。Lanchantin等团队进一步深入探讨了在TFBS任务中使用CNN、循环神经网络(RNN)以及两者的结合策略,并对其进行了详尽的技术探讨与可视化分析。尽管CNN能够有效捕捉DNA序列的主要序列特征以及空间特性,在面对序列信息两方向性模式时可能略显不足的是RNN及其双向版本(BRNN)。受双链DNA互补对称性的启发,在同一DNA链上正反两条互补序列共享参数的传统模型中Shrikumar等人于2017年提出了一种新型方法,在利用染色质ChIP-seq数据进行体外TFBS预测任务时展现出显著鲁棒性特征。这项创新性工作首次将CNN的技术特点应用于motif识别任务的研究中
除了已被广泛认可仅适用于特定问题且合理设计即可的有效卷积神经网络(CNN)之外,其他一些方法可处理不同特征提取或多种数据资源Cross-source data通常超越基础观察,在更高层次上分享共同知识因此需被模型进一步整合.Zhang等人(2015)提出的多模态深度信任网络(DBN)能够自动从RNA序列提取结构特征他们首次成功引入RNA序列的三级结构特征以提升RNA结合蛋白作用位点的预测.Pan与Schen(2017,iDeep)开发了另一个用于同样目的的多模态深度学习模型该模型融合了DBNs与CNNs以整合自不同数据源提取的低水平表征Standardized gkm-fvs输入至MLP模型经过标准误差反向传播算法(standard error back-propagation algorithm standard BP algorithm)与小批量随机梯度下降法(mini-batch stochastic gradient descent)训练通过结合gapped k-mer方法及深度学习优势gkm-DNN较gkm-SVM取得了更为全面且优异的结果.Qin与Feng(2017 TFImpute)提出了一种基于CNN的新模型采用了领域自适应(domain adaptation)方法如在第3.2节有详细讨论该模型基于无监督模式训练于具有TF结合位点的数据后用于预测新细胞类型中的TF结合位点
4.3 功能基因组学(functional genomics)
4.3.1 突变和功能性活动
该研究方法在功能性活动(functional activities)预测中存在局限性:位置信息的利用仍显不足。尽管Ghandi 等人(2014)引入了alternative gapped k-mers (gkm-SVM)以改进k-mer方法[1],但效果仍未能达到预期目标:因为这种方法仅基于k-mer计数向量表示基因序列而不考虑其具体排列顺序的位置信息。目前虽然存在能够反映序列特异性的position-specific sequence kernels工具[2] ,但这些工具将序列映射至高维空间的过程导致计算效率较低,并且在实际应用中可能并不具备足够的泛化能力以满足复杂需求。
比起传统方法而言,在处理序列信号的位置关系方面具有明显优势的深度学习方法(如CNN)不仅能够有效降低计算复杂度。Kelley等人(2016, Basset)开发了一个利用CNN的开源工具包,在通过对164种不同细胞类型的基因组学数据进行训练后显著地提升了从DNA序列预测功能性活动的效果。该工具不仅支持研究人员同时进行单测序分析以及通过染色质亲和性识别基因组突变这一功能性的分析工作;还能够揭示非编码突变的功能作用、转录因子结合位点(TFBS),以及高分辨率DNA亲和性数据。此外,在2015年的研究中,Zhou与Troyanskaya(DeepSEA)团队开发了另一个基于深度卷积网络的开源工具。该工具能够从单纯的基因组学序列预测中提取出组蛋白修饰、转录因子结合位点(TFBS),并且提供了高核苷酸分辨率(high nucleotide resolution)下的DNA亲和性数据。
突变的作用主要通过位点的独立或相互比较模型(independent or pairwise models)来进行预测分析。然而该方法在刻画高阶相互作用方面存在局限性。Riesselman 等人(2017, DeepSequence)提出了一个生物启发式的生成模型用于追踪突变的影响,并将其框架定位于贝叶斯深度潜在网络的基础上。这种生物启发式的生成模型不仅相比传统的pairwise方法具有更好的性能,在捕捉复杂的突变效应方面也表现出更强的能力。研究者们进一步引入了依赖DNA序列的潜在变量,并借助模型参数可视化工具来深入理解结构相似性和氨基酸间的相互关系。
4.3.2 亚细胞定位
亚细胞定位是基于生物学序列预测的方法 ,用于确定细胞中蛋白质所在的特定亚细胞区域(subcellular region)。为了实现蛋白质间相互作用的需求,这些蛋白质通常需要短暂停留在相邻区域中。这种定位机制不仅揭示了蛋白质的功能特性 ,还揭示了与其相互作用的其他蛋白类别。在现有研究方法中 ,大多数基于支持向量机(SVM)的方法都包含了人工提取特征这一特点 。例如 ,Shatkay 等人(2007, SherLoc)整合了不同序列特征以及基于文本的信息特征(text-based features)。Pierleoni 等人(2006, BaCelLo)则开发了一种二进制SVM层次结构(hierarchy of binary SVMs)。Meinken 等人 (2012)报道了一个先前开发的工具 ,而Wan 和Mak (2015)则引入了一种基于机器学习的方法来进行亚细胞定位 。
一些早期的深度学习研究从SMV迁移至神经网络架构。如Emanuelsson及其团队(2000年)和Hawkins与Bodén(2006年)。Mooney等研究者(2011)基于一种N→1结构构建了一个亚细胞定位预测器SCLpred。Sønderby等研究者(2015)运用LSTM模型从单一序列信息角度对蛋白质亚细胞定位进行了预测,并取得了较高的准确性。他们进一步优化了这一模型,在其基础之上添加了一个卷积层用于特征提取,并引入了注意力机制来引导模型关注蛋白质的关键区域。他们在实验中展示了这些辅助组件的作用效果。Almagro等研究团队于2017年提出了一个集成式模型DeepLoc系统。该系统整合了四个关键组件:卷积神经网络、双层 LSTM架构、注意力机制以及全连接层。
高通量显微镜成像(High-throughput microscopy images)具有较大的研究领域开发潜力。在该技术框架下,细胞亚结构的自动识别成为可能。P¨arnamaa 和Parts(2017, DeepYeast)开发了一个包含11层深度模型的系统架构,在酵母菌细胞荧光蛋白亚细胞定位分类方面取得了显著成果:其中包含8个卷积层和3个全连接层模块,并通过可视化技术展示各层特征,并结合图像透视学原理进行深入分析。研究表明,在这一层次结构中,低层级功能主要负责图像特征提取过程,在更高层级则承担着更为复杂的分类定位任务
4.4 结构基因组学(structural genomics)
4.4.1 蛋白质结构分类
由于蛋白质间源自相同的演化根源(evolutionary origins),它们往往具有类似的结构特征(structural similarities)。对蛋白质的分类始于20世纪初(19th century),当时科学家们致力于研究蛋白质折叠机制及其演化规律。通过将蛋白质根据其结构或功能进行分类,科学家们逐步加深了对不断增长的基因组数据的理解。
早期相似度测量的方法主要依赖于序列特性(sequence properties),即通过比对来实现(alignment-based)。例如FASTA (Pearson and Lipman, 1988)、BLAST (Altschul et al., 1990)以及PSI-BLAST (Altschul et al., 1997)等方法在这一领域占据重要地位。这些方法后来通过引入影响多种序列比对、位置特异性打分矩阵(position-specific scoring matrices, PSSM)以及原始序列导出的文件(profiles)来进行改进。此外,还通过采用类似SMV的判别模型(discriminative models)来进行升级。例如Cang等人(2015)将拓扑方法(topological methods),如持续同调(persistent homology),应用于SMV中以提取特征用于蛋白质结构域及超家族分类。另一个值得提及的研究是基于深度学习的蛋白质同源性检测(homology detection),如Chen等人(2016a)所作的相关综述指出,在氨基酸序列推断蛋白质三维结构或功能方面表现突出。Hochreiter等人(2007)提出了一种基于模型的方法,利用长短期记忆网络(LSTM)检测同源性,在该模型中使用BLOSUM矩阵或PAM矩阵计算相似度,并且这些矩阵并非预先固定而是由LSTM根据特定任务学习获得。Liu等人(2017, ProDec-BLSTM)针对蛋白质远同源性检测任务提出了类似的工作方案,在该研究中使用BLSTM而非传统的LSTM取得了更好的效果。基于同源方法识别折叠存在一个显著缺点:即未能有效揭示蛋白质序列与折叠之间的内在联系;这是因为现有的方法基本上是根据已知模板蛋白的折叠来推断新蛋白的折叠分类结果。因此Hou等人(2017, DeepSF)提出了一种基于一维深度卷积神经网络(1D deep CNN)从蛋白质序列直接预测其折叠分类的研究方案
部分基于现有的基因功能注释数据库(gene function annotation vocabularies),例如Gene Ontology (Park et al., 2005),用于进行蛋白质分类研究。 BioVec旨在作为一个深度学习模型来生成生物学序列的分布式表示(distributed representation),该方法在基因组学领域具有广泛的应用潜力。 每个输入序列经过BioVec编码生成一个高维向量空间中的点,在这种情况下,蛋白质家族划分问题就被简化为传统的监督分类任务了。
4.4.2 蛋白质二级结构
**蛋白质二级结构(Protein secondary structure)**被定义为蛋白质局部片段所呈现的三维空间构象,在揭示其功能、作用机制及演化线索方面具有重要意义。这种三维构象通常按照Pauling等人的分类方法划分为三种基本类型(state),而Kabsch与Sander则采用DSSP算法将其划分为八个细分状态(Kabsch and Sander, 1983)。为了评估不同预测模型的表现效果,Q3指标用于衡量基于三种状态划分模型的预测能力,而Q8指标则用于评估基于八种状态划分模型的表现水平;同时,SOV分数作为一种评价标准,能够量化对三种状态划分模型中氨基酸残基二级结构准确识别的能力。Rost等人(1994)提出的SS预测目标是使Q3指标达到至少85%的成功率。
在流行应用中使用深度学习预测蛋白质二级结构(SS)之前,机器学习算法已被广泛应用于该领域。其中概率图模型(probabilistic graphical models)、隐马尔科夫模型(hidden Markov models)以及支持向量机(support vector machines, SVMs)是主要的方法论基础。
随着积累越来越多的先验知识以及各类特征数据后
Wang 等人(2016a, DeepCNF)基于扩展的条件神经场模型,在蛋白质SS标签预测任务中取得了显著成果。该模型成功地整合了蛋白质序列与结构间的关联性,并显著提升了在Q3数据集上的准确率达到80%以上。研究者进一步验证表明,在复杂多态性预测任务中(8-state预测),DeepCNF表现尤为出色:通过对现有成功架构中的卷积核尺寸和残差连接进行了优化设计,并结合条件随机场框架捕获标签间的内在依赖关系,在Q8精确度方面实现了72%的突破——这一成绩远高于仅依赖生成随机网络进行建模时的66.4%水平。与此同时,Busia 等人(2016)则将注意力转向序列到序列建模方法,在该领域展示了另一条创新路径:研究者不仅关注于改进现有架构的设计方案(如Inception、ResNet及DenseNet等),还特别强调其相较于传统计算机视觉任务的独特优势——即通过将当前预测结果与其前序预测结果紧密关联起来的方式进行建模,在提升预测准确性方面展现出显著优势
4.4.3 蛋白质三级结构和质量评估
**蛋白质三级结构的预测被视为理解蛋白质功能的关键部分,并广泛应用于药物设计等领域。**然而,在实际操作中,用于检测蛋白质结构的实验方法如X光晶体成像(X-ray crystallography)具有高昂的成本并且并不现实。尽管这些实验方法所得到的蛋白质结构已被存储于蛋白质数据库(protein data bank)中,并且数量持续增加以满足研究需求;但这些数据仅占测序完成蛋白质总量中的极小比例。鉴于此,采用计算机建模技术来填补测序蛋白质数量与已知具有固定结构的蛋白质数量之间的差距可能是一种更为实际的方法。
蛋白质结构预测的主要难题体现在采样与排序蛋白质结构模型上。质量评估(QA)即在天然结构尚未获得时,在不依赖真实结构的情况下对预测出的蛋白质模型的质量进行量化评价并完成排序工作** 。一些早期的研究主要依赖于机器学习模型(如Ray等人, 2012, ProQ2; Uziela等人, 2016, ProQ3)。近年来Uziela等人(2017, ProQ3D)通过引入深度神经网络(DNNs)显著提升了现有方法的效果。与传统的能量函数或评分函数方法不同,Uziela等人(2016)采用了一种基于几何形状的独特方法(geometry-based approach)。Cao等人则将深度信念网络(DBN)应用于蛋白质构象预测中,并以此评估单个蛋白模型的质量表现良好** 。此外,Liu等人(2016b)提出了一种新的评估标准,即使用栈式降噪自编码器构建三种不同的模型来具体评价个体蛋白模型的质量。
4.4.4 残基接触图(contact map)
蛋白质残基接触图是一个二元分类二维矩阵(...),用于表示三维折叠蛋白质结构中任意两个残基在空间上的接近程度(spatial closeness)。因此,在蛋白质结构预测中预测残基间的直接相互作用(residue-residue contact)具有重要意义,并且这一问题较早的研究集中在浅层神经网络(shallow neural networks)上。近期研究则转向更深层的网络架构以提高预测精度。Lena等人(2012年)构建了多个共享拓扑的标准三层前馈网络堆叠体,并考虑了空间特征与时间特征的提取。此外,在2017年的一篇论文中(Wang等人),他们开发了一个超深度模型以从氨基酸序列预测蛋白质接触(protein contacts)。该模型采用了两个深度残差网络并联架构,并分别处理了一维序列特征与二维结构特征;在此基础上进一步整合了顺序信息、配对信息以及对比信息等额外特征进行建模。近年来,Zhang等人(2017)以及Schreiber等人(2017)均提出了基于多模态卷积神经网络(CNN)的开源Hi-C接触图预测方法Hi-CPlus.在Hi-CPlus方法中,Zhang等人首次实现了低分辨率Hi-C矩阵的插值操作,将其转换为高分辨率矩阵,随后利用该高分辨率矩阵进行训练以预测低分辨率Hi-C矩阵,并将输出结果重新整合到完整的Hi-C相互作用矩阵中.与此同时,Schreiber等人(2017,Rambutan)则从核苷酸序列及DNaseI实验信号数据出发,以高分辨率(1kb)精度预测Hi-C接触.他们的模型采用双臂架构,每一臂专门处理一种数据类型,并提取跨臂学习到的特征并结合全连接层与基因组学距离进行融合
5.挑战和机遇
讨论后,我们转向探讨当前存在的几个关键难点。由于深度学习模型往往具有过高的复杂度,若非经过科学规划,其表现就难以达到预期效果。这些模型结构中嵌入了多种具有价值的考量和技术,包括特征提取与数据处理等多个方面,这些要素共同推动着模型在基因组学领域取得更好的应用成果。在此基础上,我们重点阐述了一些当前值得关注的难点问题,并深入探讨未来潜在的发展方向
5.1 数据的性质
将深度学习的成功从传统的视觉或文本数据转移到基因组学数据时会遇到一个难以回避的障碍——即数据的性质。例如,在遗传机制尚不完全掌握的情况下会出现标签(label)缺失,在病例与对照样本数量上容易出现失衡,在大规模收集过程中容易造成分析难度大。因遗传机制不完全掌握而产生的关键标注信息缺失。
5.1.1 数据类别不均衡
各种来源数据集合的大规模数据常常有其固有的类别不均衡(class-imbalanced)特点 。拿表观遗传学数据集举例,DNA甲基化位点(DNA methylated regions (DMR) sites)很自然的比非甲基化位点(non-DMR sites)要少的多。一个比较常见的是在增强子预测问题中,非增强子类别的数量压倒性地超过增强子类别的数量。在机器学习方法中也遇到过数据类别不均衡问题,而集成方法(ensemble methods)是有效的。Sun 等人 (2013) 结合欠采样方法(undersampling method)和多数投票方法(majority vote)处理基因表达图像标注任务中数据分布不均衡的问题 。在深度学习方法中,Al-Stouhi和Reddy (2016)基于提升方法(boosting)提出实例转移模型(instance-transfer model),来降低类别不均衡的影响,同时还通过影响辅助域(auxiliary domain)数据来提高模型的表现 。除了集成方法外,研究人员还可以通过模型参数或训练过程处理类别不均衡问题 。比如Liu 等人(2016a, PEDLA)使用的嵌入机制,该机制使用直接从训练数据中估算的每一个类的先验概率(prior probability)。Lee 和 Yoon (2015)提出了一种叫做带有明确梯度的改进的对比散度方法(boosted contrastive divergence with categorical gradients),来为剪接预测的类别不均衡训练RBMs。Singh 等人(2016b)展示了数据扩增的方法,由于真实的标签对微小的改变不敏感,该方法通过轻微移动窗口(window)中每个阳性的增强子和启动子来实现。他们还仔细设计了训练过程来防止扩增的数据集导致的高的假阳性率。
5.1.2 多种数据类型
直观上来说,在研究中综合运用不同数据类型的高通量测序信息以识别关键特征能够显著提升模型的预测效能。例如,在研究中使用了9种不同类型的高通量测序数据以识别增强子的功能机制(Liu 等人, 2016a, PEDLA)。与现有的主流方法相比,在性能上具有显著优势。这些数据类型包括DNase-Seq(染色质可及性)、转录因子及其辅助因子的ChIP-seq、组蛋白修饰的ChIP-seq、RNA-Seq(转录水平)、RRBS区(DNA甲基化)、序列签名、进化保守性、CpG岛以及转录因子结合位点的存在情况(Angermueller et al., 2017, DeepCpG)。该研究通过两个独立的神经网络模块分别构建:一个专注于CpG位点相关区域的分析任务;另一个则聚焦于完整的基因组序列信息以预测单体DNA甲基化状态。
融合信息的融合过程对模型设计具有重要依赖性;采用多维度数据能够带来显著回报,并且有可能提供更多详细信息;有关如何融合不同来源的数据可以在第3.3节中找到详细说明。
5.1.3 异质性和混杂相关因素
大多数基因组学应用的数据涵盖了试验数据与临床数据两大类别的信息,在人群分布、生活环境等多方面因素的影响下表现出显著的异质性特征。在整合不同研究类型的数据时需要注意的是这些异质性的潜在内在关系可能会对分析结果产生干扰(underlying interdependencies)。此外,在建模过程中若引入混杂型协变量不仅会影响模型预测精度还可能导致结果偏差。
全基因组学关联研究(Genome-Wide Association Study,GWAS)是这样一个例子,基于人群的混杂因素(不同人种分组)和个体相关性都会产生SNPs之间的虚假相关关系 。大多数存在的统计学方法在进行因果推理(causal inference)前会评估混杂因素。这些方法是基于线性回归(linear regression),混合线性模型(linear mixed model ,LMM),或其他。Wang 等人(2017a)尝试升级LMM,并在生物学变量选择和预测任务中测试该方法 。尽管这些基于LMM的模型(比如FaST-LMM, Lippert et al., 2011)受到一些研究人员的喜爱并且在数学上是充分的,当面对多重非线性混杂相关关系的时候,他们的力量是苍白的。假设的高斯噪音(Guassian noise)可能会遮掩潜在的真正原因,LMM也无法对这些变量的相关关系进行建模 。一个看起来更可靠的方法是通过衍生建模(generative modeling),比如Hao et al. (2015)。 Tran 和Blei (2017) 和 Louizos 等人 (2017)都基于变分推理(variational inference)展示了考虑了潜在的混杂因素的隐含因果模型(implicit causal models)给编码复杂的非线性的因果关系。Tran 和 Blei (2017) 通过迭代优化他们的模型,来评估混杂因素的SNPs,他们的模拟研究提示了很好的效果提示。
从方法论的角度来看,在深度学习模型的发展过程中,有许多方法并非仅限于用于消除混杂因素的设计。在实际应用中发现存在混杂因素的情况下,在某些特定场景下这些方法能够被重新利用。例如:
- 如Ganin等人所提出的基于生成对抗网络的方法域对抗学习(domain adversarial learning, Ganin et al., 2016);
- 如Wang等人提出的可加选择性学习(select-additive learning, Wang et al., 2017c);
- 以及Wu等人提出的因变量过滤法(confounder filtering, Wu et al., 2018)等技术能够得到有效的应用
5.2 特征提取
通过深度学习实现自动生成性状指标大大减少了人工筛选的工作量。Torng and Altman (2017)探讨了自动生成性状指标相对于人工选择指标的优势。然而,在考虑复杂内部依赖关系和长期相关性的情况下(即当考虑到这些因素的时候),事实并不乐观:从基因组学序列中直接学习这些特性耗时较长。因此,在使用自动化方法之前(即在自动检测特性之前),研究人员可能会求助于专门针对特定任务设计的方法;如果这些方法设计得当,则能够显著提升模型性能。
5.2.1 数字特征提取
从数学领域汲取的技术展现出显著潜力,在解析生物结构的复杂性方面发挥着重要作用;如果未能有效利用这些技术手段,则可能阻碍深度学习模型的有效生成。例如拓扑学(topology)作为一种极具前景的技术选择,在解析蛋白质三维结构的几何复杂度方面表现出色;而同源检测(homology detection)则被广泛应用于蛋白质分类问题中。该软件是开发团队基于栈式降噪自编码器设计而成,并采用这一独特的特征提取方法以预测DNA CpG双核苷酸的甲基化状态;与此同时该研究团队于2017年成功将元素特异持续同调(ESPH)引入卷积神经网络(CNN),并成功预测了蛋白质-配体结合亲和力以及突变影响。
5.2.2 特征代表性
该研究通过生物序列信息探讨生命系统的特征表征问题。为深入理解生命的语言特征,Asgari 和 Mofrad (2015) 开发了 BioVec,一种无监督的数据驱动方法,将每个密码子映射到100维向量中,有效捕捉序列的生物物理和化学特性。该方法借鉴了 word2vec 的训练机制,其中 word2vec 是一种经典的自然语言处理技术。Ng (2017) 进一步提出了一种基于浅层神经网络的 k-mer 表示方法,能够适应不同长度的 DNA 序列而不受其影响。相比之下,Kimothi 等人(2016)则基于 doc2vec 的扩展思路,提出了更适用于复杂蛋白质序列的分布式表征方法,并成功应用于蛋白质分类任务,Asgari 和 Mofrad (2015)的方法同样在此领域取得了显著成效。
这些特征表征技术的发展推动了基因组学研究的进步。
6. 结论和展望
相较于图像、声音以及文本处理等领域而言,在基因组学这一领域的应用同样面临独有的难题。由于我们在解析基因组数据方面的能力仍有待提升,并因此期待通过深度学习的强大能力来进一步拓展我们的知识边界。到目前为止,在基因组学领域的研究始终是人工智能发展的重点方向之一,并且近年来其应用范围不断扩大。如前所述,在这篇综述文章中深入探讨了当前基于深度学习的方法在基因组图谱预测方面的最新进展,并指出这些新方法已显著超越了许多先前领先的计算机技术手段。值得注意的是,在可解释性方面与传统的统计方法相比
尽管当前的应用尚未在基因组学研究领域引发根本性变革,在多数问题上其预测效果仍未能达到应用于现实世界的水平。然而这些复杂模型所揭示的新见解尚待进一步深入理解。随着不断涌现的新深度学习方法模型不断涌现 我们有理由期待其在未来基因组学领域展现出优雅的应用前景。基于对数据源和特征的深入分析与合理选择 采用科学合理的策略进行模型架构的设计 能够有效提升其预测精确度并实现结果的高度可解释性 这一目标不仅关乎技术的进步 更需要我们在理论创新与实践探索中持续突破诸多限制条件 才能推动学科发展迈向更高层次
References
[1] Artificial Neural Networks in Genomics: A Thorough Examination
[2] https://zhuanlan.zhihu.com/p/206530189
