Advertisement

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

阅读量:

A method for forecasting tumor drug response utilizing integrated genomic profile data has been developed using deep neural networks.

利用深度神经网络预测整合基因组谱的肿瘤药物反应

作者信息 :

Yu-Chiao Chiu(1), Hung-I. Harry Chen(1 and 2), Tinghe Zhang(2 and 3), Songyao Zhang(2 and 3), Aparna Gorthi(1), Li-Ju Wang(1), Yufei Huang(2 and 4§), Yidong Chen(1 and 4§)
Deer Texas Health Science Center Gregg Children's Cancer Research Institute

2德克萨斯大学圣安东尼奥分校电气和计算机工程系

3西北工业大学自动化学院信息融合技术实验室

4德克萨斯大学健康科学中心流行病学和生物统计学系

论文信息:

于美国加州洛杉矶市举办智能生物学和医学国际会议(ICIBM 2018)以及BMC Genomics增刊上发表

研究背景:

由于肿瘤异质性的存在,在精确预测药物反应和鉴别新型抗癌药物方面仍面临着巨大挑战。

由于患者的药物反应数据不易获得,在开展癌症药物基因组学研究时可以通过系统性细胞系研究来实现这一目标。然而,在临床环境中进行的基础性实验与实验室条件下的体内外生物系统存在本质区别,在转化人体肿瘤药物反应预测方面仍需深入探究。

本文旨在基于基因组谱分析研究肿瘤对抗癌药物反应的可能性。研究者构建了一个深度神经网络(DNN)模型。通过收集TCGA平台提供的大量肿瘤基因组图谱数据。通过对高维突变体和表达谱的数据分析来探索相应的遗传特征。结合GDSC数据库中的药物基因组学数据对模型进行了优化训练。经过上述步骤后,在TCGA数据库上应用该模型以预测不同癌症患者对治疗方案的反应情况

研究方法:

数据源:

CCLE: 935个细胞系的基因表达数据E^CCLE

UCSC TumorMap :11,078个TCGA泛癌肿瘤数据E^TCGA

该研究将基因表达数据表示为基于2的对数(每百万个基因的转录本数加1),并对突变数据进行了分类处理。具体而言,在突变分析中包含四种非同义变异类型:错义与无义突变以及移码插入与缺失等类型。在赋值方面,则将突变样本赋值为1分而将野生型样本赋值为0分进行区分评价。

GDSC:990个细胞系对265种抗癌药物应答数据。

利用R包VIM及laeken对GDSC中的缺失数据进行处理,并基于与之最接近的五种药物的IC50加权平均值来进行估算

本研究考察了涵盖不同组织类型及其相关基因表达、突变特征以及IC50活性数据的细胞系集合,并整合了多类癌症样本的数据谱系结构。在数据预处理的基础上,在CCLE与TCGA两大数据平台中筛选并统计汇总了共计18,281个具有显著突变特征的基因及其对应的15,363个稳定表达标记基因信息。

DNN模型概述

提出的DNN模型用于根据细胞或肿瘤的基因组特征预测IC50值。

输入是样本c中的突变及其对应的基因表达情况;输出则是一个长度为D的一维数值序列,其每个元素对应于抑制浓度IC50值

该模型由三个网络组成:突变编码器(Menc),表达编码器(Eenc),预测网络(P)。

前两部分是使用TCGA数据的突变数据和表达数据(n=9059)进行预训练的自编码器,用于将突变和表达数据的高维特征学习为低维表示。将低维表示连接到P中,使用CCLE数据(n = 622,分别使用80%、10%和10%的样本作为训练、验证和测试集)对整个模型(三部分)进行训练,预测265种药物的IC50值。

DNN设置计算环境

本研究中的DNN训练使用Keras 1.2.2。网络各层均为全连接层。

优化器为Adam,损失函数为均方误差(MSE)。

P的输出层采用了线性激活函数,其他层设置为ReLU,输出采用对数尺度IC50值表示

神经网络模型示意图

预训练突变和表达编码器

Autoencoder是一种基于无监督学习框架的深度学习模型,并由一对非对称设计的编码器与解码器构成;通过最小化输入与重构之间的损失降低数据维度,并在瓶颈层提取关键特征。

为了确定优化结构,作者采用超参数优化方法hyperas,选取:

(1)第一层神经元数量(4096、2048或1024)

(2)第二层神经元数量(512、256或128)

(3)第三层神经元数量(瓶颈层;64、32或16)

(4)批大小(128或64)。

每个组合训练了20个epochs,表现最好的模型重复运行100次。

最终模型神经元数:Menc (18281-1024-256-64) Eenc (15363-1024-256-64)

完整的预测****网络

在完整的模型架构中,在线学习系统通过深度学习技术实现了药物发现的关键环节——分子对接性预测(QSPR)。其中的核心组件是基于深度前馈神经网络构建的分子描述子生成框架(Molecule Descriptors Generation Framework),该框架由一个输入模块、五个隐藏模块以及一个输出模块构成。具体而言,在输入模块中将分子特征提取为两组独立的表示向量;接着,在第一个隐藏模块中将这两组表示向量进行融合;随后依次经过三个全连接层并最终生成一个单一的活性指标作为分子对接性评估结果。整个网络参数均采用均匀分布初始化策略,并基于TCGA肿瘤基因开放数据库进行了充分预训练;为了防止模型发生过拟合现象,在监控验证集损失指标时设定合理的终止条件:当验证集损失指标连续三个 epoch 未再下降时,则触发早停机制并终止后续训练过程

基于测试集的方法可以用于模型评估;此外,最终模型可用于对TCGA肿瘤进行药物反应预测;这预示着患者可能对相应药物产生不良反应

与其他****模型的比较

将与线性回归、支持向量机和四种不同的DNN进行了性能比较。

在评估过程中,我们用于评估TCGA预处理对Menc和Eenc的作用效果,并通过均匀分布对两个编码器进行随机初始化设置,并计算整个模型的MSE损失值.

此外,采用主成分分析(PCA)对突变与表达数据进行降维处理,并提取前64个主要成分作为Menc与Eenc。

最后两个模型仅包含Menc或Eenc,研究它们是否提高了性能。

在每次迭代过程中, CCLE样本被随机分配为训练集(占80%)、验证集(占10%)和测试集(占10%)。基于所耗用 epochs的数量以及IC50浓度与MSE值的相关性分析, 在多次实验中评估不同划分方案下的性能表现。

对于多元线性回归模型与正则化支持向量机系统而言,在整合突变信息与基因表达数据的基础上提取前64个主要特征分量,并分别通过多元线性回归方法计算出所有IC50值或针对单一药物样本采用支持向量机模型进行预测

实验结果:

CCLE实际(包括缺失值)计算与估算出其IC50值,并观察其与TCGA预测结果在分布情况上的差异;原始样本特征的表现更加突出。

(B)计算和预测CCLE IC50值的热图。预测IC50的分布与原始数据相似。

(C,D)CCLE样本IC50预测值与估算值之间的Pearson和Spearman相关性。

性能比较

作者经历了100次训练过程,在每次训练中都进行了数据的重新采样以保证数据的多样性。整体而言,该模型经过14个epoch的学习达到了稳定的收敛状态(标准差为3.5),其中测试集上的均方误差(MSE)为1.96,在训练和验证集中表现更为优异的 MSE 为 1.48

两种经典方法在测试集上的MSE均值较高。与之相比,在随机初始化和基于主成分分析(PCA)的方法下进行比较实验时发现,在测试样本中所提出的模型具有更好的稳定性和优越性(其标准差分别为0.13、1.21和0.17)。采用单模态嵌入(Eenc-only)的方法所得结果与其相当接近,在引入多模态嵌入(Menc)后似乎能够更快地收敛到最优解状态。这与生物学领域的先验知识高度一致:基因表达活动与其相关联的功能联系更为直接且具信息量优势(相比于突变事件而言),这使得所提出的模型相较于单独使用单模态信息的方式具有显著优势)。

TCGA - per-cancer研究中,基因突变药物反应预测的****关系

旨在从肿瘤的角度筛选有效的抗癌药物。通过构建该模型来直接预测9059个TCGA样本对265种抗癌药物的反应。实验结果表明,所预测的IC50值与CCLE细胞分布呈现出显著的一致性。

旨在从 tumor 的角度筛选有效的抗癌药物。通过构建该模型来直接预测 9059 个 TCGA 样本对 265 种抗癌药物的反应。实验结果表明,所预测的 IC50 值与 CCLE 细胞分布呈现出显著的一致性。

由于细胞系与肿瘤存在本质差异,在研究过程中作者最先评估了几种具有显著靶点作用药物的效果

作者考察了所有癌症-突变-药物组合,并对具有突变与无突变样本间的IC50差异进行了显著性比较。采用Bonferroni校正t检验(P < 1.0×10^-5),最终筛选出4453种癌症-突变-药物组合涉及256种药剂及169个癌症-突变组合。(共计4487种化合物参与研究)其中前三种主要研究对象为肺腺癌(LUAD)-TP53突变组(共计235种具调节活性的化合物)、肺鳞癌(LUSC)-TP53突变组(共228种药剂)及胃腺癌(STAD)-TP53突变组(包括224类化合物)。研究表明,在多种癌症中发现高度易位频率最高的基因之一即为TP53基因。该基因已被证实与肿瘤干细胞特性及耐药性特性相关并发挥抗药性调控作用

TCGA**-** pan-cancer基因突变药物反应预测关系

作者研究了所有TCGA样本库中变异率超过10%的关键基因共11个。随后确定了药物与突变之间的关联共计2119项,在这其中耐药性相关的突变-药物配对占据了约88.8%的比例即为1882项相对敏感性则仅有约237项占比仅为11.2%

在数量上最多的前五类药物反应调节基因中,在位点上最显著的是位于第17号染色体上的TET1突变体以及位于常染色体上的SOD1突变体。其中TP53突变显著关联于对最多耐药性起作用的特定类别的化疗药物(如顺铂、卡铂等)的敏感性特征;而TTN突变则表现出对大部分具有较高疗效的靶向治疗药物(如克唑替尼、帕尼单抗等)的高度易感性。由此出发,研究者深入探讨了两种特定基因与其对应的治疗效果之间的关系。

野生型TP53起着关键作用,在CX-5461与索拉非尼协同作用下显著促进癌症治疗方案的整体效果,并且能够显著促进并加强了苯乙双胍诱导下的抑制效果以及细胞凋亡进程。

针对此前较少被研究的TTN突变事件,在一项研究表明( studies )表明 , TNN 可能作为维诺瑞滨(vinasapir)及 epothilone 等药物敏感性标志基因

研究表明该模型能够有效地识别药物反应模式,并且展示了其在发现调节药物反应新基因方面的潜力。

TCGA多西他docetaxelCX-5461的药物基因组学分析

作者以两种药物为例,对药物耐药性相关突变和表达谱进行研究。

对于每一种药物,评估预测为高度敏感性与耐药性(IC50位于头1%和尾部1%区间内,在每组中样本量n=91)的病人。

多西他赛敏感患者的以食管癌为主的主要癌症类型包括宫颈癌和头颈部鳞状细胞癌;而耐药患者的以肝癌为主的主要癌症类型包括LGG和胶质细胞瘤

CX-5461最近显示出在治疗急性髓系白血病(LAML)方面优于标准化疗方案。LAML及b细胞淋巴瘤(DLBC)患者达45.1%,对CX-5461反应良好。

对于Docetaxel的基因,平均每个敏感肿瘤有2.7个突变,而耐药组为0.51个。

对于CX-5461药物治疗方案而言,在前10个发生变异位点中约有9个主要分布在耐药组区域,并以 BRAF V600E 位点突变为特征(占比达到95.6%,而敏感组仅占13.2%)。在敏感肿瘤样本中最早发生的易位基因是 IDH1,在该类病例中其突变模式主要呈现于低 grade glioma(LGG)病例群中(共44例敏感LGG样本中有42例发生了该基因的突变)。

基于药物基因组学的研究阐明了多西他赛已知的抗药性机制,并深入探讨了CX-5461在白血病以及脑胶质母细胞瘤中的潜在治疗效果。

总结:

该研究开发了一种深度神经网络(DNN)模型,通过对癌症细胞及肿瘤中的突变谱系及表达模式进行分析来进行药物反应预测。实验结果表明该模型在药物反应预测方面表现出较高的准确性。进一步将此模型应用于肿瘤研究后,我们揭示了一些具有创新性和研究价值的耐药机制以及潜在的关键靶点。

(2)因为具备强表达能力和结构复杂的模型架构,该方法存在过拟合现象。针对这一问题的研究工作将训练数据划分为训练集与验证集两部分,并通过这种方式使训练过程得以提前终止。未来的改进工作可能会进一步引入Dropout技术和正则化方法以增强模型性能。

该模型能够通过融合额外的基因组突变信息来减少MSE

(4)在神经网络的发展过程中,在过去一段时间内(或过程中),近期提出了若干新方法用于提取神经网络所学到的特征信息。未来的研究工作可以通过整合这些新方法来进行探索并揭示新的癌症基因组图谱。

全部评论 (0)

还没有任何评论哟~