Advertisement

ISME Comm | 机器学习和深度学习在微生物组研究中的应用

阅读量:
图片

Review Article,ISME Communications,

DOI: https://doi.org/10.1038/s43705-022-00182-9

第一作者: Ricardo Hernández Medina

通讯作者: Mads Nielsen;Simon Rasmussen

主要单位: 哥本哈根大学

- 摘要 -

将生态系统中与人类密切相关的众多微型生物群统称为微塑料污染环境学分析法?

尽管难以直接观察到这些微型生物群的存在

- 引言 -

我们的环境中无处不有微生物群落活跃着。它们有助于维持生物地球化学循环,并对环境变化起到缓冲作用。它们对于研究人类和其他生物的健康状况及疾病具有重要意义。特定条件下由相互作用的微生物及其代谢产物共同组成的集合被称为微生物组。深入理解这些网络中的运作机制及其相互关系将有助于推动可持续农业的发展、疾病预防与治疗以及评估人类活动的影响。在微生物工程领域的一项重要研究方向是构建能够实现预期功能的特定菌群组合,在这些菌群中存在关键物种以及可调节的部分可以发挥重要作用。然而要实现这一目标需要具备一定的专业知识特别是关于菌群构建功能的关键组成部分以及可操控成分的作用程度等方面的深入了解。

针对具有复杂特性的微生物群组问题进行求解。由于它们展现出卓越的预测能力以及潜在的信息价值,在该领域取得了显著进展。研究人员采用了人工智能技术以解决这一难题,并在此过程中取得了一定成效。为了深入探究这一现象背后的机制,在这项研究中我们重点阐述了这些新型技术如何揭示微生物群与表型之间的关系

- 微生物组数据类型 -

目前仅有少数微生物物种能够实现其分离与培养。

由这些方法产生的特征表中包含多个表格单元格信息,在每个表格单元格中记录了不同物种或功能在各个样本中的丰度值或其他存在状态信息。尽管如此,在分析物种或功能组合对后续研究带来的判别能力时仍存疑虑与质疑空间;无论怎样分析结果如何得出这一结论:该数据类型确实具有一定的特殊性与挑战性;首先指出这一现象:该数据类型属于成分类数据;其核心特点在于描述了各成分之间的相互关系;即各变量之间相互依存并共同满足总和恒定的特点;其次指出这一现象:在实际应用中这类数据通常呈现高度稀疏性(即存在大量零值)同时维度极高;这必然导致后续分析面临多重挑战:一方面较高的维度会增加计算负担从而影响算法效率;另一方面有限数量的实际样本又会对模型的学习精度与泛化能力提出更高要求。

微生物组数据分析涉及多种方法。传统的基于距离的分析方法和关联分析对于处理组成型数据并不适用,因此开发出多种适用于这类数据的方法,如对数比变换(log-ratio transformation),单纯形法(staying-in-the-simplex approach)以及分成分比计算(calculating component ratios)。然而,在应用对数比变换时会遇到稀疏型数据难以处理的问题,并且通常需要将0值替换成伪值以避免计算问题。另一方面,在面对高维数据时可以通过特征选择与提取来减少维度的影响。特征选择能够有效剔除不相关及冗余变量,而特征提取则通过降维技术帮助解决维度问题。综上所述,在进行微生物组数据分析时必须经过预处理步骤才能获得可靠的分析结果;值得注意的是这一预处理环节同样对于模型性能具有关键影响。

- 机器学习 -

机器学习作为一种重要的研究领域,在大数据的支持下能够有效应对各种关键问题。它不仅能够分析表型特征(如环境因素或宿主特性),还能对微生物群落进行分类(包括丰度、多样性及物种构成)。此外,在研究微生物间相互作用(涉及物理化学性质)以及追踪微生物群落的变化趋势方面也展现出显著的应用价值。参考表1中的示例内容。

任务 预计目标 方法 参考文献(DOI)
预测表型 海绵细菌的密度分类 随机森林 10.3389/fmicb.2017.00752
预测表型 作物产量预测 随机森林 10.3389/fmicb.2017.00519
预测表型 食物过敏 递归神经网络LSTM 10.1371/journal.pcbi.1006693
预测表型 疾病(如Ⅱ型糖尿病和肠炎) 随机森林、lasso、elastic net 10.1186/s13059-021-02306-1
预测表型 疾病(如肝硬化,Ⅱ型糖尿病和肠炎) 卷积神经网络 10.1093/bioinformatics/btaa542 10.1109/EMBC.2017.8037799 10.1109/JBHI.2020.2993761
微生物特征分类 微生物组成 自编码器 10.1109/JBHI.2020.2993761
微生物特征分类 代谢装配 自编码器 10.1186/s12864-020-6652-7
互作分析 微生物-代谢组互作 嵌入算法 10.1038/s41592-019-0616-3
互作分析 微生物共现模式 嵌入算法 10.1371/journal.pcbi.1007859
微生物组分监测 微生物对饮食改变的响应 自编码器 10.1109/BIBM47256.2019.8983124

表1 微生物组研究中使用的常见任务和ML方法示例。

- 经典方法 -

然而,在微生物组数据分析领域中,在经典机器学习算法方面也取得显著成效的例子诸如线性回归、随机森林与支持向量机等技术均表现出色。然而,在算法不断演进的过程中,在这些基础模型之上又衍生出更为复杂的改进型算法与集成学习方法逐渐取代了原有的基础地位。目前在线性回归领域中的一项创新应用主要是将其他模型输出结果作为输入变量来建立新的分析框架以实现更为直观地阐述原有模型行为特征的方法。该方法最近被成功应用于宿主生态失衡预测研究领域并展开了系统比较分析过程与其他预测手段比如随机森林进行对比评估。其中随机森林采用决策树构建流程化的结构通过决策过程对数据集实施有条不紊地分类与归类其独特的优势在于从特征子集中随机抽样生成多棵决策树从而构建起一个集成化的预测体系相比单一决策树而言其泛化能力与预测精度均得到显著提升尤其在处理复杂问题方面展现出独特优势例如能够有效解决海绵共生密度估算玉米产量预测以及区分健康个体与疾病患者等问题

- 降维方法 -

无监督排序手段能够实现降维并简化数据集的信息量。这类算法不仅适用于传统的可视化处理还可以应用于所谓的投影分析方法。通过将现有特征采用线性和非线性相结合的方式整合处理后得到一个被压缩且具有代表性的输入数据集合。其中,在微生物群落分析中非常流行的工具包括主成分分析(principal component analysis, PCA)以及主坐标分析(principal coordinate analysis, PCoA)等方法,在实际应用中常用于鉴定样本的栖息地及其地理分布信息等用途。而像t相邻域嵌入(t-stochastic neighbor embedding, t-SNE)这样的非线性降维技术以及基于统一流形逼近与投影的算法(uniform manifold approximation and projection, UMAP)则能够在微生物数据分析中有效捕捉复杂的非线性关系网络;不过这些方法在参数调节方面仍存在一定的难度

- 深度学习 -

在机器学习领域中,深度学习被视为一个重要的分支学科。它涵盖了多种复杂的 neural network 架构,在各个应用场景中展现出强大的计算能力。其中的核心组件包括 artificial neural networks(ANN),它们通过 intricate 的 connection 网络相互作用并完成信息处理任务。每个 artificial neural network 的主要功能是将输入数据经过处理后传递到下一个层级的人工 neural unit(neuron)节点。这些 connection 形成了多层次的架构模型,在模式识别、数据建模等方面发挥着关键作用

大部分基础型神经网络架构采用的是全连接架构。即在一个层中的所有神经元都会完全联结到下一个层的所有神经元上。Lo 和Marculescu基于这种架构从宏基因组原始数据出发预测宿主表型,在多个数据集上展现出比传统方法更高的分类准确率(提高了约15%)。可以说全连接神经网络是一个高效且独立的基础模型,在复杂架构中是最常用的模块之一。

- 图形化微生物组 -

研究团队首次提出了一种创新性方法,在系统发育分析中引入了新的计算模型

图1. 从OTU表生成的CNN图像输入示例。

A. 图像主要显示了物种丰度(左)或左侧无数据(右)。
B. 构建系统发育树并填充对应的物种丰度信息后,在结果中将其重新排列为矩阵形式。

- 时序数据 -

循环神经网络(Recurrent neural networks, RNN)广泛应用于探索时序上的信息。其结构通常呈现链式架构,在时间序列中从前一时间段传递信息到下一时间点。在微生物组研究领域中,RNN被用来分析时序依赖关系、动态变化特征,并进行预测建模。Metwally被认为是首个在时序数据上构建微生物装配预测模型的研究者之一。基于三年婴儿过敏表型追踪数据的研究表明,在该数据集上构建的模型性能优于其他现有方法;然而,在临床可信赖性方面仍存在提升空间。phyLoLSTM 是一种基于taxoNN特征提取机制构建的RNN框架,并显著提升了LSTM在分类任务中的性能水平。与此同时,Chen提出了一种基于时间自适应机制的时间序列分析框架;这种设计结合了清除异常数据和特征工程(优化输入数据的质量)的方式,并对不同数据集进行了验证

- 揭示潜在信息 -

考虑到计算成本和处理效率等多方面的因素,在实际应用中,默认情况下会采用降维处理方法对微生物组数据进行处理。这种降维技术的核心在于提取数据中的关键特征信息,并将其映射到更低维度的空间中进行表示。在深度学习领域中,这种技术通常被称为嵌入学习(embedding learning),而自编码器Autoencoder则是一种典型实现这一技术手段的方法论框架。具体而言,在这种框架下,默认情况下会采用降维处理方法对微生物组数据进行处理。其中 encoder模块负责将高维特征映射至低维潜在空间,并从中提取关键特征信息;而 decoder模块则负责将这些低维潜在表示还原为高维空间中的重建样本(reconstructed samples)。通过优化训练过程以最小化原始输入与解码输出之间的 reconstruction error(重建误差),自编码器Autoencoder能够有效地捕捉并学习反映潜在压缩信息的关键模式特征

DeepMicro 系统深入分析了不同潜在隐含特征对肠道功能紊乱及糖尿病预测的影响机制,在这一研究框架下,默认情况下会采用多层自编码器变体的技术架构来进行建模与分析工作

自编码器的特点使其不仅能够处理单一数据类型的数据,并且能够整合多模式数据。
Reiman 和Dai提出了一种二模式自编码器(Bimodal Autoencoder),这种模型能够有效整合饮食数据与微生物组分数据,并用于预测微生物组分对饮食变化的影响。
Grazioli引入了一种新型疾病预测模型(基于product-of-experts方法),这种模型能够综合两个层次的信息:物种水平(species-level)和菌株水平(strain-level)的信息。

其他的一些算法源自于自然语言处理领域中的方法,其中一些著名的例子包括word2vec和 GloVe 。这些方法可用于构建密集度嵌入层以捕获共存模式。

机器学习在数据分析中扮演关键角色。
通常情况下,
分析往往始于对微生物组特征表的描述及其概况。
在预处理阶段,
我们可能会对其进行转换、插值或增强,
并结合其他相关过程。
预处理后的输出可能表现为表格数据,
或者每个样本对应的图像集合及其嵌入形式。
随后,
我们将重点训练并优化机器学习(ML)或深度学习(DL)模型,
包括随机森林算法、全连接神经网络架构以及卷积神经网络等技术路线。
最后,
这些结果有助于阐明微生物组组成与连续(回归)
或离散描述(分类、聚类和可视化)
表型之间的关联性。

- 展望 -

0****1

未来应用瓶颈

尽管机器学习算法在微生物组研究中显示出巨大的应用潜力,但在实际应用中仍面临诸多挑战。其局限性主要包括以下几个方面:模型可解释性;数据饥渴性;模型评估及选择等。机器学习方法通过建立输入与目标之间的关联关系,在无需深入理解输入与目标之间潜在逻辑关系的前提下能够有效地识别出真实的关系网络。这种特性使得其常被视为不可解的黑匣子模型,在临床决策制定等实际场景中往往引发争议。尽管可解释性的定义尚不统一且存在争议,但越来越多的研究倾向于采用具有可解释性的机器学习模型进行分析工作。例如,在微生物组相关研究中已广泛应用深度森林算法来排序特征重要性;Zhou等人则将微生物互作网络嵌入到全连接神经网络中去,在这一过程中融入了先验知识以提升模型性能;此外还有其他框架如DeepCoDA 通过线性转化来初始特征贡献;以及SparseNED 通过稀疏化和可解释化的隐藏空间构建用于捕捉关节炎中微生物-代谢关系的具体机制

该方法的一个主要限制是需要大量的充足训练数据,并且这些数据必须是高质量标注的。Adadi 提出了应对数据不足的有效策略包括: 数据增强、无监督学习、迁移学习以及混合模型等技术。具体来说, 数据增强技术通过生成同质化的样本来扩展训练集规模, 并显著提升了表型分类性能的同时也扩大了训练集规模。Lo 等人利用负二项分布模型显著提升了表型分类性能的同时也扩大了训练集规模, 而Sayyari 等人则提出了基于树状关联的数据增强方法, 在推测发育树的基础上生成新的 OTU ( Operational Taxonomic Unit), 有效弥补了样本量不足及类别不平衡的问题。与有监督学习相比, 在无监督和半监督方法中所需的标注量较少, 而迁移学习和混合模型还没有在微生物组领域应用

在数据质量方面具有重要考量意义的是其来源多样性及潜在缺陷问题等多方面的差异性特征。具体措施包括去除重复样本以减少冗余信息的影响、平衡类别分布以避免主导类别的偏差问题以及剔除异常值以优化整体分布状况等多种方法。这些方法显著影响着模型的表现。然而,在微生物学领域中获取大量高质量标注样本几乎是不可能的任务。尽管如此,在实际应用中研究人员仍需通过多来源的数据增强策略来提升整体效果。无论怎样,在机器学习模型中训练集的质量始终扮演着关键角色

另一个对微生物生态学者来说是一个重要挑战的问题是,在完成特定任务时如何实现合适的模型选择、参数优化以及效果评价。面对众多可供选择的模型架构,在挑选适合的任务需求时需要投入大量工作量来寻优配置其超参数设置,并通过性能评估确定最终方案的有效性。为此我们建议采用成熟的机器学习生态系统框架如PyTorch TensorFlow或Keras等工具来进行建模与分析工作。通过在不同数据集上的对比实验来验证机器学习方法的稳健性与适用范围同时对参考数据集的质量与代表性问题给予高度重视以确保实验结果的高度可信度和可比性

综上所述,在归纳ML辅助微生物组的关键步骤后(如图2所示的分析结果),我们提供了以下几点:快速提示以及启发式方法建议

了解并掌握数据集的基本情况。通过前期对输入数据的检查可以评估其对特征空间的影响,并判断数据集中各类别分布是否存在失衡现象。从而帮助决定是否需要进行填补技术和特征工程优化。

制定模型构建与基准评估方案。将数据集划分为训练子集、验证子集与测试子集(适用于大数据量的情形)或采用交叉验证方法(适用于小规模数据)。这一步骤有助于确保评估过程的有效性和准确性。基于这些指标评估各候选模型的性能表现,并根据结果优化模型参数以提高预测能力。

第3点:选择合适的方案。具体来说,选择过程受到数据特性和任务需求的影响。由于传统机器学习(ML)算法通常涉及较少的调整,并且实现起来相对简便,在很多场景下仍是一个不错的选择。然而,在某些情况下如需处理大规模或多模态的数据资源时,则应考虑在深度学习领域中采用自动编码器等技术来整合多种数据特征。值得注意的是,在具有纵向结构的微生物群落序列数据的情况下,在捕捉时间依赖性方面存在特定需求时,则建议尝试一个适合捕获这种时间依赖性的RNN框架进行建模。如果 空间信息可以嵌入到输入中 ,例如系统发育树可以分解为二维矩阵,则考虑使用卷积神经网络(CNN)来处理这些空间信息的相关特性。

图2. 机器学习进行数据分析的关键步骤。

02

需要关注的新技术

LaPierre等人的研究表明,在宏基因组数据的基础上预测准确性存在明显限制。然而先前的研究指出通过整合不同数据模式可显著提升预测能力例如微生物组遗传信息及环境因素等均可带来这一效果的具体实现方式包括将多种分析结果统一至同一个潜在空间内并采用最小化潜在间距离的方法以实现各独立编码器输出的有效融合例如García-Jiménez等人通过这种方法实现了多模态信息的有效整合进而优化了分析结果进一步研究探讨了根据数据特性选择合适潜在空间组合方法的有效性一种基于谱系结构的设计旨在优化单模态潜在空间的融合效果该研究方法在实际应用中展现出较高的潜力特别是在处理复杂生物系统时能够有效整合来自不同来源的数据类型从而提高分析精度

- 展望 -

微生物群落的研究内容极为丰富。扩增子技术和宏基因组测序所得的特征表不仅在分类上而且在功能上描述了微生物组的信息,并且通过适当的方法进行标记,则能够支持基于机器学习(ML)和深度学习(DL)的方法的应用。深度学习(DL)模型作为一种强大的工具,在微生物学领域具有广泛的应用前景。值得注意的是,在实际应用中这些方法不仅能够将特定分类群与宿主表型相关联,并且还能够监测宿主对不同环境变化的反应动态。尽管现有的ML与DL模型构建方案各有特色但具体选择仍需根据实际任务需求以及输入数据特征来决定。在此综述中我们不仅列举了人工智能技术在微生物学领域的具体应用场景还详细介绍了使用这些模型时需要注意的关键事项包括数据质量评估以及结果解释等问题。未来若能进一步解决现有技术面临的关于数据可用性和模型可解释性等瓶颈问题则可能进一步推动深度学习技术在微生物学领域的深入应用并有助于我们更全面地理解影响世界范围内的各种微生物相互作用机制。

- 作者简介 -

第一作者

哥本哈根大学

Ricardo Hernández Medina

在读博士

Ricardo Hernández Medina是一位正在哥本哈根大学攻读博士学位的学者,在合成生物学、深度学习及微生物组等领域拥有专长,并已在国际期刊《The ISME Journal》上发表了多篇高质量论文

图片来源:https://twitter.com/ricardo_heme

参考文献:https://scholar.google.com/citations?user=TNWqa0IAAAAJ&hl=zh-CN&oi=ao

全部评论 (0)

还没有任何评论哟~