Advertisement

Cell Host & Microbe | 人工智能在微生物组研究中的应用:现状与展望

阅读量:

****人工智能在微生物组研究中的应用:现状与展望

AI in microbiome research: Where have we been, where are we going?

e01ccb395efdc458b8b516f224076228.png

****Commentary, 2024-8-14, Cell Host & Microbe, [IF 20.6]

DOI: https://doi.org/10.1016/j.chom.2024.07.021

原文链接: https://www.sciencedirect.com/science/article/pii/S1931312824002804

第一作者: Georg K. Gerber

通讯作者: Georg K. Gerber(ggerber@bwh.harvard.edu)

主要单位:

哈佛大学医学院位于美国马萨诸塞州波士顿(Harvard University Medical School, Boston, MA, USA)

- 摘要 -

人工智能(AI)作为计算机科学的一个分支领域,在研究如何模拟人类认知功能方面取得了显著进展。目前处于快速变革时期。在本文中,我将探讨该领域的发展趋势,并深入分析未来十年内人工智能可能在微生物组研究方面带来的创新影响。

- 主要内容 -

早期

The early years

人工智能源于20世纪40至50年代的一系列开创性研究。其中一项研究是沃伦·麦卡洛克与沃尔特·皮特在电子电路基础上构建的人工神经网络模型;另一项重要研究是由阿兰·图灵提出的机器智能操作性定义。1956年于美国达特茅斯举办的一场重要会议上首次提出"人工智能"一词,并将其作为一门新兴学科正式确立。

20世纪60年代至70年代期间,人工智能领域的重要分支之一致力于运用符号推理来模拟人类认知过程。值得注意的是,这一领域的重要早期应用之一是在生物医学领域,其中MYCIN系统通过医生制定的一套预先定义好的规则,帮助识别导致感染的细菌种类并提供相应的抗生素治疗建议。与此同时,机器学习领域也在这一时期取得了显著进展,通过相关数据进行训练以提升其在客观指标上的性能,逐步优化其性能水平。这些成就引发了该领域的广泛关注与讨论,例如,马文·明斯基(Marvin Minsky)于1970年发表在《生命》杂志上的一篇论文预测称:"未来三到八年之内,我们将发展出具有人类平均水平智能水平的人工智能系统。"

然而,在未来几十年的时间里(段落:未来),人工智能的发展速度低于预期(主语:发展速度;宾语:预期;动词:低于)。这一现象的主要原因之一在于(原因状语)当代计算机硬件的技术瓶颈(名词性状语)。与此同时(时间状语),由于不切实际的目标设定(名词性状语)以及政府优先事项的重大转变(名词性状语),出现了一连串公共及私营部门资金骤减的情况(并列结构),这使得这一领域陷入了所谓的"人工智能寒冬"(名词性短语)。尽管偶尔会遇到挫折(结果状语),但人工智能领域在1990年代末至2000年初仍然保持着稳步的发展节奏,并在此期间引入了一系列关键创新技术(如名词短语),例如概率方法等工具与理论体系。(注:此处可进一步细化说明这些创新如何具体应用于现实世界的系统模型中)

革命

The revolution

在2010年代中期,人工智能迎来了快速发展的新时代。这一变化主要由四股关键力量共同作用推动:首先,在计算机科学领域出现了创新性的理论和技术突破,在构建复杂的人工智能模型方面开启了新的可能性之门。尤其是深度学习框架的出现及其发展,在通过层次堆叠的人工神经网络(ANN)架构来执行高阶数学运算方面取得了显著进展。其次,在硬件技术方面发生了翻天覆地的变化:高性能图像处理器(GPUs)的普及使得许多传统用途得以实现,并在此基础上实现了计算能力的重大提升。与通用中央处理器(CPU)相比,GPU设计更加专业化,在图形处理和其他并行计算任务上展现出明显优势;它们能够高效地对信息网格进行操作,并同时处理多个计算任务以提高整体性能水平。第三,在软件层面的重要进步体现在像TensorFlow和PyTorch等流行框架的应用上;这些工具极大简化了AI模型在GPU上的实现过程,并促进了算法开发人员之间的协作与知识共享。最后但同样关键的是,在可训练机器学习算法所需的数据资源方面也取得了重要进展:随着大数据时代的到来,《表1》和《图1》系统性总结了现代人工智能时代中广泛采用的基本术语及其相关概念。

表1 术语词汇表

60b78302f90e17ccb57e0cbfe2b5fe9c.png
2597ccc43319efd0120a201cd8f9fa33.png

图1 | 机器学习概念

基于监督的学习方法称为监督式机器学习模型

(B)无监督生成型机器学习模型。该模型在未标注的数据集上进行训练,并通过分析形态特征和颜色特征进行分类,在这种情况下能够将细菌按照形态学指标进行分组。经过训练后该模型能够预测新的样本点,并且能够预测那些在原始训练数据中未曾出现过的样本类型例如弯曲的革兰氏阳性菌株。

(C)传统的前馈式人工神经网络模型。通过非线性数学函数整合并计算出输入层(以黄色表示)的信息输出层(以绿色表示)。

(D)深度人工神经网络体系中输入端通过非线性数学函数进行组合处理,在隐藏层单元中计算得到数值(如图所示)。接着将各隐藏层的输出结果综合汇总,并将其作为上一层计算的基础或最终输出数据来源。

作为一项简明的数学运算实例,在处理已排序的输入数据时,请考虑以下情况:其中涉及两个长度均为3的向量之间的加法运算。

(F)需要进行三步操作的顺序计算。

(G)采用并行计算的方式来完成此操作;其中一种具体实现方式是通过图形处理器(GPU)来实现的,在这个示例中能提升约3倍的速度。

近年来人工智能领域最为引人注目的进步主要集中在图像识别、自然语言处理(NLP)以及蛋白质折叠等关键领域。就图像识别而言,在2016年之前的机器学习模型在ImageNet数据集上仅实现了68%的分类准确率;而如今这一数值已大幅提升至92%以上。更为精确的图像识别模型正在为现实世界的诸多激动人心的应用铺平道路,在生物医学领域中这些模型可从病理学成像数据中精准探测癌症等疾病。过去十年间,在同义词替换任务、语言翻译任务以及问题解答任务等自然语言处理领域的基准测试也取得了显著进展。目前最先进的模型如GPT-4不仅可以完成多种NLP任务,在某些情况下甚至能模拟人类水平的能力——例如精确执行复杂的书面指令以及解决棘手的语言推理问题。在蛋白质折叠领域方面的人工智能突破同样令人瞩目——这一问题是计算生物学领域中最具挑战性的研究领域之一,并已超过了50年的发展时间。在这一领域的重大突破是由AlphaFold 1深度学习方法实现的——该方法在2018年的蛋白质结构预测挑战赛中首次获得第一名,并在此基础上AlphaFold 2实现了预测精度进一步提升的目标;而最新推出的AlphaFold 3则具备了对包括蛋白质、核酸以及小分子在内的复杂生物分子相互作用关系进行精准预测的能力

所有模型取得成功的关键因素在于人工智能技术的进步以及在处理规模扩大、深度日益加深的大规模数据集上的训练。有趣的是,在人工智能研究领域过去一段时间内还未完全认识到大规模数据的巨大价值。例如,在2014年前的人工智能研究者普遍认为:「如果你无法准确识别单张图片中的物体特征就不要去尝试处理成千上万甚至数百万张图片吧」这一观点得到了著名计算机科学家李飞飞的反驳并被广泛采纳她随后创建了一个大型数据库 ImageNet(始于2014年)该数据库包含了超过37亿张经过标注的照片与视频其中包含了丰富的动物与日常物体类别信息

近年来备受关注的趋势之一是被称为AI基础模型的技术。这些技术在经过大规模、多样化的数据集训练后,并发散至多个应用场景。其中一项突出的例子是在医学影像分析领域中的表现:该系统无需预先指定具体任务即可从医疗记录中提取大量病理样本数据进行学习训练。例如,在医疗记录中的病理报告中提取了117万对图像和文本数据用于训练。结果表明,在组织切片分类、分割分析以及文本与图像间的双向检索等多个关键领域中均展现了超越单任务性能水平的表现能力。值得注意的是,在某些情况下,这类大规模的基础架构不仅展现了预期的能力,并且还意外地展现出一些未被预先设计的能力特征。例如,在处理生物序列数据时就展现出预测生物结构的能力

人工智能微生物组应用的挑战与解决方案

Challenges and solutions for microbiome applications of AI

该生态系统由各种相互关联的生命体共同构成,
其中生物之间生物与环境之间错综复杂的互动关系随着时间与空间维度持续展现。
随着技术日益复杂化
科学家们利用先进手段对菌群进行精确测定
从而生成了高维数据集。
菌群分析对此领域具有重要意义
特别是在深度学习算法的支持下
研究人员已成功开发出多种实用工具
用于分类检测以及预测宿主疾病等关键任务。

与传统的深度学习工具相比,微生物组数据集的应用面临诸多挑战。正如前所述,在传统深度学习方法中对数据的高度依赖性使得这些模型对大量样本的需求成为常态。值得注意的是尽管微生物组研究确实会产生高维度的数据集但样本数量通常最多只能达到数千个这一限制使得可用于训练的有效示例相对较少此外这些研究产生的数据还存在较高的噪声水平且个体间的异质性非常显著包括每个个体所包含的不同物种集合除了上述提到的数据质量和数量问题外可解释性作为理解模型决策背后的逻辑机制的能力同样扮演着重要角色然而在那些主要关注于获取科学见解并开发具有临床应用价值的诊断手段或治疗方法的研究领域中可解释性的重要性不言而喻

需充分挖掘人工智能技术在微生物组研究领域的潜力。为此,
必须结合更为优质的数据资源以及专为微生物组研究设计的人工智能模型。
通过自动化样本处理技术的进步、高度多重化的检测方法的优化以及其他相关技术的提升,
有助于显著扩展微生物组研究领域的数据规模。
同样关键的是,
需要持续投入资金支持这一领域的发展,
以期能够产出大规模高质量标准化的数据汇总。
尽管具备新型实验技术和充足的资金是推动这一领域发展的有力支撑,
但完全实现像图像识别或自然语言处理数据库那样庞大的数据规模仍显不可能。
因此,
开发能够提供关键可解释组件或至少具备一定程度的可解释性的模型
成为当务之急。
在此过程中,
采用如整合先验生物学知识及物理现实约束等技术手段
将有助于提升人工智能模型的有效性。
同时,
构建能够提供可靠结果预测机制的技术框架
也是实现精准预测的重要途径。

我们的实验室开发了一款专为微生物组分析设计的深度学习模型,并命名为MDITRE(如图2所示)。该模型属于监督学习范畴,在处理微生物群落的时间序列数据时表现出高效的预测能力(例如能够预估发展为1型糖尿病的风险)。MDITRE采用了我们专门针对该任务设计的一种五层人工神经网络架构,在这些层中融合了系统发育过程与时间因素的相关信息。这种结构使得我们可以借助深度学习软件库以及GPU硬件资源来显著提升在大型数据集上的训练效率。各层可被解读为一系列由逻辑连接符串联起来的规则集合。检测器的形式如下:“当时间窗口T内的系统发育状态中相似组A中的菌类丰度或变化速率超过阈值Y时,则返回‘TRUE’。”随后模型依据这些规则加权求和来预测宿主的状态;其中规则权重的意义在于它们表示根据纵向微生物组测量结果预测宿主状态的概率值。通过将传感器模块化组合在一起的方式(即采用逻辑联结),该模型得以捕捉到菌群间的非线性相互作用关系并保持完全可解释性特征。研究结果表明,在性能上MDITRE与传统"黑箱"机器学习方法不相上下甚至略胜一筹;此外它还能自动生成具有生物学意义的关键解释指标,并将微生物群落随时间变化的趋势与宿主表型特征关联起来。基于此我们所构建的方法不仅整合了领域特定知识体系还实现了完全可解释性与数据效率的最佳结合;这为我们未来开发适用于微生物组研究领域的深度学习模型提供了理论基础和技术框架

ad3ae565692d787214fdccb04094af0d.png

图2 | 用于微生物组分析的可解释深度学习方法示例

MDI-TRE是一种基于监督的学习深度模型,在其架构中包含系统发育树、微生物群落的时间序列数据以及宿主状态(如是否感染病原体)作为标注输入。该模型能够从数据中提取出易于人类理解的预测宿主状态的规则。其深层结构可以直接通过‘如果-那么’条件语句进行解析。其中第一层次关注于识别与宿主状态预测相关的系统发育焦点点位;第二层次则聚焦于确定与预测宿主状态相关的最佳时间窗口;随后各层次将筛选出在选定类群与时间窗内检测到的数据强度超过预设阈值的部分,并将筛选出的各项条件进行逻辑组合后生成完整的预测规则框架

- 展望 -

人工智能展现出在微生物组领域显著的应用前景,在促进对复杂生态系统的深入认识以及探索提高人类健康水平的方法方面展现出巨大潜力。从基础科学研究的角度来看,在揭示微生物群落特征及其相互作用机制方面取得重要进展的同时,在通过微生物群研究探索提高人类健康水平的方法也取得了突破性进展。接下来我将详细描述未来几年内我认为人工智能最有价值的应用领域以及相关问题

预测微生物组

Forecasting the microbiome

由多种生物组成的微生物群构成一个复杂而动态的生态系统。通过研究分析当前的状态与趋势,科学家们是否能够类比天气预报来预判未来的变化?当微生物群接触抗生素或其他药物时会产生什么样的结果?我们能否预判恢复与失衡之间的差异存在性?当宿主的饮食发生变化时,预期会带来怎样的影响?我们是否能够预判不同时间点上菌群数量的趋势变化?如果我们有意引入新的微生物(如噬菌体或活细菌疗法)用于治疗目的,我们可以预判其接种对原有菌群的影响吗?

阐明宿主-微生物相互作用

Elucidating host-microbe interactions

虽然已有研究表明微生物组与宿主之间呈现复杂而广泛的作用关系

揭示宏基因组“暗物质”

Shedding light on metagenomic “dark matter”

人体微生物组中仍有大量细菌基因尚未被注释。这些基因的结构与功能如何?它们是如何通过调节活动来参与重要的细菌生理过程的?除了细菌之外,在微生物组中发现的病毒与真核生物成分的特性尚不明确。我们如何能够准确识别并阐释那些以前未被研究过的病毒或真核共栖生物?这些微生物与其他微生物组分之间又是如何相互作用的?历史上来说,在分析新生物序列时主要依赖于基于同源性的传统生物信息学方法;然而,在某些情况下由于特征不明显而难以找到相似性支持的新生物体其基因组序列分析可能会面临挑战。近期在人工智能预测蛋白质结构方面取得的进步为这一领域提供了强有力的替代方案利用这种技术不仅能够用于理解新型微生物分子结构还能够为诊断与治疗相关的目标设计并构建相应的工具模型

绘制微生物组的生物地理分布图

Mapping microbiome biogeography

在宏观生态系统的空间组织中重要性已得到充分验证,在此基础上进一步研究表明,在微生物群落中空间结构能够促进关键的局部相互作用以及生态位的有效利用。针对这一特性展开深入探讨的具体方向包括:如何放大并系统化地刻画微生物组的空间结构特征?这些结构是否具有高度稳定性,并可能伴随宿主或环境条件的变化而发生动态调整?此外还需明确的是:这种空间结构对于指导菌群功能发挥的作用机制是什么?基于当前技术发展背景而言,“高通量分子技术和基于光学的方法结合深度学习工具进行图像分析与解释”等新兴手段有望进一步拓宽这一领域的研究边界

人工智能与实验形成闭环

Performing AI in-the-loop experiments

获得关于生物系统的知识最终必须依赖于通过实验收集数据。创建具有高信息价值的微生物组研究方案并非易事;其中一部分原因在于微生物组本身的复杂性以及需要综合考虑的各种潜在变量数量庞大。此外,在某些情况下这些实验的成本可能非常高昂;尤其是当它们涉及人类或动物模型时。AIs能否被用来设计出能产生最高信息产量的实验证据?一旦获得结果;AIs是否能够更新并建议进行下一轮试验?我们能否借助AI来解析这些试验结果?例如;基于科学文献的人工智能模型不仅能够对结果进行总结;还能利用先前的知识提出可能的解释。目前这类AI系统听起来像是科幻小说的情节;但实际上已开发出基于深度学习优化实验设计的方法框架;同时得益于自然语言处理技术的进步;我们有望不久就能利用AI帮助我们分析发现并指导下一步行动。

谨慎操作

Proceed with caution

随着人工智能展现出具有破坏性的潜在能力的同时也需要警惕其带来的危险性。随着人工智能软件的运行其使用的能量需求不断增加从而对环境造成越来越严重的压力。研究表明在某些情况下这些系统可能存在偏见和歧视其中一个原因是训练数据中对某些群体的代表性不足这可能导致算法在执行决策时存在偏差进而引发社会不公。如果过度依赖这些系统可能会危及人类创造力与判断力例如像AlphaDraw这样的AI图像生成工具已导致许多艺术家失业同时还有大量能够产生平滑且具有欺骗性的‘深度伪造’图像这类技术的存在不仅增加了社会风险还可能削弱公众的信任基础。此外当前最先进的人工智能模型由公司所有和控制而这些企业不仅拥有技术本身还拥有对其的所有权与控制权这意味着它们有能力制定有利于自身利益的技术政策并从中受益巨大与此同时这些企业在获取访问权限时通常要求高昂的成本这使得成本过高的问题愈发突出而这种做法可能与科学研究的目标背道而驰

- 作者简介 -

通讯作者(兼第一作者)

eb7d243ea65673e41fed89737c604e0c.jpeg

布莱根妇女医院和哈佛医学院

Georg K. Gerber

副教授

Georg K. Gerber教授现任教于美国布莱根妇女医院及哈佛医学院病理学系(共同任命的副教授职位),并担任美国布莱根妇女医院计算病理学部负责人以及麻省理工学院全球宿主-微生物组中心联合主任角色;同时 serving as a member of the Harvard-MIT Health Science and Technology(HST)学院教职员工资池成员。他拥有哈佛医学院医学博士学位(从哈佛大学授予)、哈佛-MIT健康科学与技术学院计算机科学与医学工程博士学位(从麻省理工学院授予)、麻省理工学院计算机科学与电气工程硕士学位(从麻省理工学院授予)、加州大学伯克利分校传染病公共卫生硕士学位(从UC Berkeley授予)以及数学学士学位(优等生水平)。

实验室网站:https://gerber.bwh.harvard.edu/

宏基因组推荐

本公众号现正式开通投稿通道,诚挚邀请研究人员讲述个人科研经历,并介绍论文的核心观点和创新点。编辑部(微信咨询:yongxinliu;邮箱:meta-genomics@outlook.com)

猜你喜欢

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组 宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索 Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘

写在后面

为了促进学术交流和高效解决科研难题,我们正式创建了"宏基因组"专业交流群,并已吸引来自国内外的600多位科研人员加入。如需加入我们的专业讨论群,请添加主编微信meta-genomics并注明入群信息:姓名-单位-研究领域-职称/学历层次。其中如为高级职称,则需特别说明身份信息。对于技术问题,请先参考《如何优雅地提出问题》一文中的方法来理清思路;若仍未解决,则可参与群内讨论,请勿私聊相关事务,请助益同行。

点击阅读原文,跳转最新文章目录阅读

全部评论 (0)

还没有任何评论哟~