《scientific discovery in the age og artificial intelligence》文献阅读翻译
人工智能时代的科学发现
人工智能(AI)正在不断融入科学发现的过程以提高效率并加速探索的步伐。这种技术不仅帮助科学家提出假设、规划实验步骤、处理大量数据分析以及解读复杂的数据集,并且还能为传统科学方法提供独特的见解。本研究回顾了过去十年中取得的重要突破性进展:自监督学习(通过大量未标注数据训练模型)与几何深度学习(利用科学数据结构的知识来提升模型性能)。基于生成式AI的方法能够通过整合不同数据形式(如图像与序列)来开发小分子药物分子与蛋白质等产物。我们探讨了这些方法如何贯穿于科学研究的各个阶段,并指出了尽管取得了显著进展但仍存在的关键挑战:现有工具的设计仍需改进以提高其有效性与可靠性;此外还需解决来自数据质量参差不齐以及数据管理的问题所带来的挑战。这些问题跨越了多个学科领域并成为开发能够自主或者通过算法贡献科学理解的基础性方法的关键领域。
其核心建立在数据的收集与转换以及对其深入理解的基础上。这一趋势自2010年代初的兴起以来已极大地拓展了科学研究的应用范围与目标。如今已在多个领域广泛运用的人工智能(AI)不仅系统性整合了海量数据集并对测量过程进行了精细优化;同时通过系统指导实验设计深入探索基于现有数据分布的基础理论空间;并提供了可靠且可操作的模型框架以实现对现有研究流程的有效延伸从而推动自主式创新研究的发展
科学探究的基础通常体现在数据收集与分析上,并且这两个目标构成了科学研究的核心。传统手段包括定量方法以及新兴技术(例如光学显微镜等物理设备到引导抽样等研究方法)的应用已经持续了几十年。计算技术在科学研究中的广泛应用直至21世纪才逐步普及。近年来,随着数据科学的发展与成熟,在线算法如今已经成为推动科学研究的重要工具。
虽然科学方法在不同阶段各有侧重,但人工智能技术的发展打破了传统学科之间的界限(见图1)。这些先进的人工智能算法显著提升了科学研究的设计与执行能力,并成为研究人员不可或缺的技术工具。具体而言,在优化研究方案的过程中,它们通过优化参数配置、自动化的数据采集以及直观的数据可视化和处理流程;系统性地探索可能的理论框架,并评估各种假设的可能性;同时能够自动生成候选理论模型并量化其不确定性等多重功能支持实验设计与验证工作。

图1 | Artificial Intelligence Age of Science. Scientific discovery is a comprehensive process involving multiple interconnected stages such as hypothesis formation, experimental design, data collection, and analysis. Artificial intelligence can enhance and accelerate the research process to restructure scientific exploration in every phase of scientific discovery. These case studies demonstrate the significance of AI in advancing scientific understanding and innovation.
自2010年代初至 Present, 随着大数据集可用性的显著提升, 感谢高性能计算资源(如图形处理器和超级计算机)的发展以及新算法的应用, 人工智能技术的整体实力得到了显著增强. 其中, 几何深度学习(见框1)作为一种关键的技术框架, 已经被证明能够有效整合科学知识. 它不仅依赖于物理规律、先验分布以及约束条件等因素, 并结合复杂的数学表达式(例如分子结构等)来辅助科学研究. 此外, 通过预训练的方法使神经网络能够在仅标注少量数据的情况下迁移知识到不同领域. 这种方法特别适用于传统标注数据有限但领域多样性高的情况. 最后, 生成式模型(见框1)不仅能够估计复杂系统的内在数据分布特征, 并为其提供新的设计思路. 相比之下, 强化学习方法通过探索多样的场景并优化策略, 并基于实验反馈机制对不同动作进行评估以实现最佳效果.
在由人工智能推动的科学研究中,在框1所示的位置可以通过引入适当的归纳偏差来将科学知识整合进人工智能模型中。这种归纳偏差是一种假设,在紧凑的数学形式下表达了系统的结构特征、对称性以及约束条件等关键要素。然而,在实际应用这些理论时可能会导致方程过于复杂,在传统数值方法难以解决的情况下显得力不从心。作为一种创新的方法,在框1所示的位置可以通过整合人工智能模型中的科学知识来构建更加高效的知识密集型系统;这种系统不仅能够包含基本方程的信息(如物理定律),还能够结合分子结构与蛋白质折叠等领域的前沿原理。通过减少达到同等精度所需的训练样本数量以及拓展分析范围至未知领域的新探索区域等手段;这种归纳偏差能够显著提升人工智能模型的效果与性能水平;从而为科学研究带来革命性的突破与可能性
在科学创新与发现过程中运用人工智能面临着独特性难题,在其与其他人类活动领域应用方面存在显著差异。主要难题之一在于科学问题所涉及假设空间极为宽广这一特点导致系统性探索变得非现实可行。例如,在生物化学研究领域据估计存在超过10^60种潜在药物分子可供探索研究者从中寻找有效的化合物以推动新药研发进程。与此同时构建高质量标注数据集也是一项极具挑战性的任务因为这通常需要耗费大量时间和资源用于实验与模拟过程即便如此依然难以完全解决这一难题。尽管面临诸多障碍人工智能系统仍展现出强大的潜力即具备自我导向能力能够在监督下完成高效的数据采集与分析并通过实时反馈优化决策质量这种能力不仅促进了智能代理系统的进步更使其能够在动态环境中实现持续交互例如在平流层气球导航系统中实现了精确实时决策辅助功能此外这些技术也为理解复杂科学概念提供了新的工具依据如元素周期律及功能材料特性等关键知识点的识别基于通用知识图谱构建的方法能够从海量科学文献中提取有价值的关系网络从而帮助研究人员更深入地洞察科学研究的本质及其内在规律近期研究表明未经专门训练的语言模型具备捕捉复杂概念的能力例如元素周期表规律及功能性材料特性等这类基本知识暗示着未来科学发展中的重大突破可能已经存在于过去的研究成果之中
近期的重要进展已在多个领域取得突破性成果。
其中一项突出成果是本研究团队成功解决了困扰科学家长达半个世纪之久的核心蛋白质折叠难题。
另一项成果则是在运用人工智能的强大计算能力下完成了针对数百个复杂分子系统的动态模拟工作。
这些创新性研究充分彰显了人工智能在推动科学研究和技术进步方面所具有的巨大而深远的意义。
然而,
"科学人工智能"这一新兴领域的快速发展也伴随着诸多亟待解决的关键问题。
如同其他任何新兴技术一样,
只有将其有效地应用于实际工作流程才能充分发挥其潜力,
而这又要求我们必须深入认识其应用前景及其潜在风险。
尽管人工智能展现出巨大潜力,
但在科学研究中仍面临诸多障碍:
涉及不同研究阶段的独特挑战以及外部环境的影响因素。
此外,
对于各种方法和技术手段的有效性及其潜在滥用问题也需要深入探讨。
一、人工智能辅助的科学研究数据收集和整理
实验平台所收集的数据集规模持续增长且日益复杂,并非 static, 而是呈指数级扩张趋势。这使得科学研究愈发倚重实时在线处理技术与高效率计算引擎的支持。研究者们必须在高速流生成的数据中进行有选择性的存储与分析操作以确保数据不被冗余记录而浪费资源
1、数据选择
一种经典的粒子碰撞实验每秒产出超过100 TB的数据。此类实验正促使现有数据传输与存储技术达到极限。在这些物理实验中发现,在原始仪器记录的所有数据中占比高达99.99%的部分属于背景事件。为了识别未来科学研究中的未曾预料到或极为罕见的现象...
一个典型的粒子碰撞实验每秒会产出超过100 TB的数据。此类科学实验持续突破现有数据传输与存储技术的极限,在物理实验领域占据重要地位。其中超过99.99%的原始仪器数据属于背景事件,在实时处理中必须及时识别并剔除以避免数据 overwhelmed 的情况。基于算法搜索异常信号的新一代深度学习方法取代了传统的预编程硬件触发器,从而有效地捕捉到那些在压缩过程中可能被遗漏的重要异常或罕见现象。
背景过程可由生成式深度自编码器建模(见图1)。自编码器对未曾见过的信号(即罕见事件)给出更高的损失值(异常评分),这些信号超出背景分布范围。与基于监督式的异常检测不同,在无监督情况下不需要数据标注,并且其应用领域已涵盖物理学、神经科学、地球科学、海洋学以及天文学等多个领域。
| 术语 | 解释 | 
|---|---|
| 主动学习 | 通过选择最具信息量的训练点来提高AI模型的效果,尤其当数据标注代价高昂时。贝叶斯优化是一种顺序策略,常用于优化昂贵的黑箱函数,通常与主动学习结合,以确定下一次查询黑箱函数的最佳问题。 | 
| 自编码器 | 一种神经结构,学习无标签数据的压缩表示,由编码器(将数据映射到表示)和解码器(从表示中重构数据)组成。 | 
| 数据增强 | 通过生成来自现有数据的新样本,增强模型的鲁棒性和泛化能力。这种过程可以包括替换序列中的标记、更改图像的视觉方面或调整位置等,以保持信息的本质。这种技术不仅增加了数据的多样性,也增加了数据量,从而有助于模型的训练。 | 
| 分布漂移 | AI模型应用中的常见问题,指算法最初训练的数据的底层分布与实际应用过程中遇到的数据分布不一致的现象。 | 
| 端到端学习 | 使用可微组件(如神经网络模块),直接连接输入和输出,避免手动输入特征,支持直接从输入预测结果。 | 
| 生成模型 | 估计数据的概率分布,并从该分布中生成新样本。示例包括变分自编码器、生成对抗网络、归一化流、扩散模型和生成式预训练变换器。 | 
| 几何深度学习 | 处理几何数据(如图或流形)的机器学习分支,通常保留几何数据在变换中的结构,并可应用于3D结构。 | 
| 归纳偏置 | 一组假设或偏好,用于指导AI模型的决策过程,如卷积神经网络中的平移不变性。 | 
| 逆问题 | 一种科学或数学挑战,目标是解密导致观察结果的根本原因或参数。与从原因到结果的直接问题不同,逆问题通过观察推断原因,解决多义性和不稳定性。 | 
| 物理信息AI | 指将物理规律融入AI模型作为一种先验知识的技术。 | 
| 强化学习 | 通过序列决策进行学习的过程,表示为马尔可夫决策过程,包括一个代理人、状态集、动作空间、环境和奖励函数。强化学习的代理人被训练为基于某个状态选择能带来最大累计回报的最优动作。 | 
| 表示学习 | 使用自动化方式生成数据的表示,如图像、文档、序列或图形的表示。这些表示通常是密集的、紧凑的向量,可用于嵌入或提取输入数据的关键信息。 | 
| 自监督学习 | 一种从未标注数据中学习的训练策略。生成式自监督学习如预测数据的一部分,另一种对比式自监督学习定义正负视图并将其分开,提升模型在无标签数据上学习有意义特征的能力。 | 
| 代理模型 | 分析上可处理的模型,用于逼近复杂系统的特性。 | 
| 对称性 | 描述函数的对称性,类似于物理学中的协方差。等变函数保持不变性,例如从特定群体执行相同的变换时输出保持不变的函数。 | 
| 变换器 | 一种神经结构,通过一系列步骤使用注意力机制对序列数据进行并行处理。每一步,注意力机制选择并组合前一步信息,为序列中的每个位置生成新的可微、柔性表示。 | 
| 弱监督学习 | 利用有限、部分或噪声标签数据训练AI模型的学习方法,适用于标注稀缺或标签不可靠的情况。 | 
2、数据标注
构建监督学习模型需要依赖标注数据集,这些标记提供了必要的信息来指导模型的学习,并根据输入估计目标变量及其条件分布.伪标签与基于少量准确标注数据的大规模无监督标注方法具有吸引力,能够基于有限高质量标记实现大规模无标记数据集的有效注释.在生物领域,对新发现分子的功能性和结构性特征进行分类对于构建监督学习模型具有重要意义,因为实验生成标记通常极为耗时.例如,尽管测序技术的进步使得蛋白质序列分析更加便捷,但仅通过测序得到功能标记的比例仍不到1%.另一种辅助注标策略是利用代理模型对未标记样本进行预测性注标,并通过这些预测性伪标签来提升下游预测器的学习效果.相对而言,基于特征嵌入相似图的方法通过扩散标签到未标记样本实现了高效的学习.此外,主动学习策略能够识别最具信息量的数据样本进行人工补充,并通过优化实验设计来提升 downstream预测性能.最后一种注标策略是利用领域知识建立注标规则.
3、数据生成
深度学习的效果会因为训练数据集的质量、丰富程度以及数量的提升而得到显著增强。
深度生成模型 ,涵盖变分自编码器(VAE)、生成对抗网络(GAN)、正则化流模型和扩散模型等技术手段,在深入分析数据本质的基础上可有效提取其内在规律,并能从改进后的分布中选取训练样本以提升生成质量。特别值得注意的是,在科学图像生成领域GAN表现尤为突出,它们不仅能在不同应用场景下生成逼真图像而且还能有效提升生成效果例如在粒子碰撞模拟、病理切片诊断以及医学成像等多个方面展现出显著优势此外还能用于模拟复杂材料结构预测蛋白质功能并辅助基因编辑研究等多维度科学探索任务
一种新型生成建模方法是概率编程 ,其中数据生成模型通过程序实现。
4、数据优化
精密测控设备(如基于超高分辨率激光技术和非侵入式显微成像系统的创新仪器)不仅能够直接进行参数检测,在无法直接获取相关数据的情况下可以通过数学建模推算出结果
AI具体应用领域涵盖用于可视化复杂时空结构(如黑洞)、模拟高能粒子碰撞过程以及提升活细胞成像质量;借助先进的算法优化方案(包括光谱解卷积技术、灵活稀疏性增强策略和生成对抗网络原理),深度学习模型能够将低精度时空测量数据转化为高清晰度图像,并呈现出更高细节层次和系统性组织特征的图景。
对于多种科学学科而言,去噪作为人工智能的关键任务之一,则致力于识别出具有意义的信号并有效地去除干扰噪音。
此外,在具体操作层面,“这些自编码器则通过最小化原始未受损的数据点与其重建后的噪声表示间的差异来完成去噪过程”这一表述既保留了原文的核心意思又使整个描述更加具体清晰
除了传统的自编码器之外(见图1),其他形式的自编码器同样广泛应用于各种领域。变分自编码器(VAE)通过潜在空间中的编码机制学习样本的概率分布模型,并能够有效地提取关键特征信息,并且能够过滤掉不必要的变化因素。此外,在单细胞基因组学研究中引入了一种优化计数基向量的自编码方法,在处理数百万个细胞的数据时显著提高了基因激活模式的分析效率,并且这种方法也被成功应用于蛋白质-RNA相互作用网络的研究中。
二、学习科学数据的有效表示
深度学习能够在多级抽象层次上提取科学数据的有效表示,并对其有效性进行优化以便更有效地指导研究 通常采用端到端的学习方式
1、几何先验
在学习表示中引入几何先验已被证实具有显著效果
在科学图像分析领域中,当物体发生像素级别的平移变换时其本质属性保持不变。这表明,在面对像素级别的平移变换时,图像分割掩码能够保持其原有的几何特性。因此,在有限标注数据条件下(例如基于3D RNA及蛋白质结构的数据集),我们不仅能够显著提升模型性能,在面对训练过程中未曾接触过的各种测试样本时也能展现出更强的泛化能力。
2、几何深度学习
图神经网络(Graph Neural Networks, GNNs)已被广泛认为是处理具有几何和关系结构数据集的深度学习先进技术(如图2a所示)。从理论角度而言,几何深度学习的目标是发现数据中的内在模式,并为神经网络模型注入归纳偏差,从而使其能够有效利用数据中的全局特征与局部关系编码。这些编码机制通常通过神经消息传递算法实现。基于具体的研究问题,在实际应用中开发了多种图表示方法来捕捉复杂系统的独特属性。例如,在模拟玻璃系统的物理行为方面,“有向边”的引入提供了有效的工具;而针对染色质结构的理解,则采用了包含多个节点连接的超图结构;在基因组学领域中,“多模态图”的训练则帮助构建了用于预测的关键模型。此外,在高能粒子物理研究中,“稀疏图”的独特性质被巧妙应用于大型强子对撞机(Large Hadron Collider)中的多个关键任务:一方面是从粒子探测器读数中重建粒子轨迹;另一方面则是通过区分物理信号与背景过程来提高实验分析精度。
3、Self-supervised learning(自监督学习)
当标记样本数量有限且用于标注数据的成本较高时,在监督学习方法中可能难以有效解决问题。针对此类情况,在整合标记数据与未标注数据的学习过程中能够显著提升模型的性能和泛化能力。自监督学习技术旨在帮助模型在无标签数据环境中自动提取有意义的特征。有效的预训练策略包括:1)基于图像重建的任务(如遮挡补全);2)基于视频预测的任务(如预测过去或未来帧);3)对比学习方法(如正对负 hardest margin loss)。这些方法能够有效地提高模型对相似与不同数据区分的能力。作为预训练阶段的一个关键步骤,在大规模无标签数据集上进行预训练后所获得的知识将能够显著提升后续小样本分类任务的表现。
4、语言建模
语言建模
masking方法在自然语言处理与蛋白质工程中得到广泛应用,并如图2c所示。通过组织特定结构来模拟原子与氨基酸间的相互作用机制,在完成分子构建的同时能够模仿传统的文字构建过程。该领域的发展不断推动着蛋白质工程与传统自然语言处理之间的相互影响。在整个训练阶段中,在双向上下文的基础上预测后续未被遮蔽的标记元素。
蛋白质语言模型能够编码氨基酸序列以识别其结构与功能特性,并用于评估病毒变体的进化适应性。这些表示形式可在多个应用场景中进行迁移应用包括从序列设计到结构预测。在处理生物化学序列时 化学语言模型使得对复杂多样的化学空间进行高效探索成为可能 它们已被用于预测分子性质 规划多步合成路线以及探索反应机理。
图2:

图 2 | 学习科学数据的有意义表示
a.
b. 为了有效表示样例之间的多样性(如卫星图像),必须同时关注样本间的相似性和差异性。自监督学习方法中采用对比学习策略能有效提升性能。该方法通过生成增强对照样本并将正负样本分开处理来实现这一目标。该迭代过程显著提升了嵌入的质量,并生成了更具信息量的关键特征向量。从而显著提升了多个下游任务的表现能力。
c.
5、Transformer架构
Transformer被定义为一种神经网络架构模型,并且展示了其独特的能力:它能够灵活地构建任意标记对之间的相互作用机制以应对复杂的标记序列分析任务。这一创新方法超越了以往基于递归神经网络的方法来处理序列建模问题,在自然语言处理领域取得了主导地位,并且在多个应用领域取得了显著成效:例如,在地震信号检测方面取得进展;同时涉及DNA与蛋白质序列建模的研究工作也有所突破;此外还包括分析序列变异对生物功能影响的工作;最后还涵盖了符号回归等技术的发展研究
虽然Transformers成功地将图神经网络与语言模型实现了整合;然而其计算时间和内存需求会随着序列长度呈指数速度上升;这使得处理效率成为一个挑战问题;为此;研究者开发出了长距离建模技术和线性注意力机制以提高效率水平;由此方法已得到广泛应用
6、神经算子
标准神经网络模型在科学领域中往往表现出较差的效果,在许多情况下可能无法满足需求。这是因为它们通常基于固定的空间离散化假设进行设计,在面对复杂多样的科学数据时会显得力有未逮。针对这一问题提出的方法并不适用于所有场景下的科学数据集;这些数据集往往以不同分辨率和网格的形式被收集,并且其采集方式具有高度个性化特征。此外,在实际应用中我们处理的数据通常是通过从连续域中采样物理现象获得的实例样本;例如地震活动、流体流动等典型的物理过程都可以作为此类数据来源的例子。神经算子则通过学习函数空间之间的映射关系来实现对这类问题的有效建模;其核心优势在于能够获得对离散化不敏感的表现形式;这意味着无论是在哪种尺度下进行数值求解都不会受到影响,并且当网格细化时其预测精度也会得到提升。因此一旦完成训练过程就可以直接将模型应用于任意分辨率下的预测任务;而无需依赖特定于训练阶段的数据分辨率设置作为前提条件。相比之下,在部署过程中若遇到与训练阶段不同分辨率的数据输入情况,则传统神经网络模型可能会表现出明显性能下降的现象
三、基于人工智能的科学假设生成
可验证之假说乃科学探索之核心。
1、科学假说的黑箱预测器
为了识别有潜力的研究假设, 需要系统性地筛选候选假设, 并优先选择预期能产生最大产出的假设. 在药物研发过程中, 高通量筛选技术能够筛查出数千甚至数百万种分子. 然而, 算法则能够筛选出哪些分子值得进一步研究. 模型经过训练来预测实验的有效性及其相关分子特性. 然而, 在许多情况下难以获得这些预测器的真实效果数据. 因此可采用弱监督学习方法(见Box 1)来训练这些模型. 这种方法可替代耗时 costly 的计算或其他精确实验过程(如图3a所示).
基于高保真模拟训练的先进人工智能技术已被成功应用于大规模分子库的有效筛选任务。在基因组学领域中,通过训练基于Transformer架构的模型来预测基因表达值已成为当前研究的核心方向之一。在粒子物理学研究中,科学家们致力于识别质子中的内在粲夸克这一挑战,并开发出一种高效的方法来筛选所有可能的结构,并将实验数据与每个候选结构进行拟合。
为了进一步提升这些流程的效率, AI筛选出的候选可通过中低通量实验进行检测,并通过持续优化使其逐步完善. 将这些结果输入至主动学习与贝叶斯优化机制中进行分析与迭代训练, 以便使算法能够针对性地提升预测能力, 最终聚焦于最具潜力的选择.
当面对像分子这样复杂的对象时
除了传统的正向问题之外,在探索科学规律的过程中
2、探索组合假设空间
尽管系统性地覆盖所有与数据相匹配的假设是一项巨大的挑战, 但设定一个高质量的假设方案仍是一个切实可行的目标. 这相当于建立一个优化模型, 相较于传统的人工规则设计方法, 基于人工智能的方法能够评估每次搜索路径的价值, 并优先规划具有更高价值的方向. 一般由强化学习算法训练后的智能体能够在此搜索空间中执行行为, 通过执行行为以积累反馈奖励信号. 这个反馈信号通常反映了假设的质量或其他关键指标.
为了解决优化问题这一目标,我们可以利用符号回归任务来实现。具体而言,在这一过程中可采用进化的办法来进行处理。进化的第一步是生成符号法则作为初始候选解集,并在每一代中对这些候选解施加微小的修改。随后,在每一次迭代中都会评估这些修改是否能产生比之前更符合观测数据的符号法则,并保留那些表现更为优异的候选作为下一阶段的基础。然而,在深度学习领域中逐渐兴起的强化学习方法正在取代传统的基于遗传算法的传统策略。强化学习通过神经网络逐步构建数学表达式的过程,并根据当前模型所掌握的知识储备来决定下一步应该引入哪些新的运算符或函数字符(如图3b所示)。其中解析树的形式则被用来表示这些复杂的数学关系结构;所学策略将解析树作为输入来识别哪些节点需要扩展以及应该引入哪些新的运算符或函数字符(如图3b所示)。
另外一种采用神经网络解决数学问题的方式是将数学公式转换为符号的二进制序列。神经网络策略能够基于概率逐个生成二进制序列中的各个符号。为了评估这种策略在反驳猜想方面的能力,在缺乏先验知识的情况下可以引入一种激励机制来判断其有效性
组合优化技术同样适用于识别那些在药物特性上具有理想特性的分子任务,在这种复杂的设计过程中每一个步骤都提供了一个独特的决策机会。研究者们将生成过程中的部分分子图提供给学习策略,在这个关键阶段该策略将进行选择性决定:决定在何处添加新的原子以及为选定位置选择添加哪种类型的原子。通过不断重复这一过程系统能够构建出一系列潜在的新分子结构并根据其对目标性质适应度的评价来进行筛选最终聚焦于最有潜力的发展方向以实现高效的设计结果
强化学习方法可通过特定训练目标实现优化效果,在该框架下策略旨在从一系列合理解决方案中进行采样,并特别关注具有高回报的方案。与传统的强化学习不同,在后者中仅追求单一最佳方案。这些方法已在多个领域取得显著成效,如蛋白质表达优化、水电站规划以及粒子加速器参数探索等应用案例。
AI智能体学到的知识常包含一些具有前瞻性、创新性的策略,在初步实施时似乎不符合常规思维但其结果往往能取得显著成效。例如,在数学领域中 监督学习模型能够识别复杂数据间的内在联系及其规律 从而激发研究者们的直觉洞见 并促使他们提出关于自然运行机制的新模型。这些分析不仅揭示了隐藏在数据背后的潜在模式 还带来了对现有理论的重大挑战与扩展机会。然而 在强化学习方法中 学习过程中的一个显著缺陷就是难以对未曾见过的数据提供良好的泛化能力 因为智能体一旦找到了某些有效的动作序列 就可能会陷入局部最优解的状态为了避免这种情况发生 需要通过引入探索策略来拓展搜索空间 这样才能进一步提升这一能力
3、优化可微分假设空间
科学假设往往表现为分离的实体,在物理学中使用的是符号公式,在制药与材料科学领域则是化学化合物。尽管组合优化技术在解决这些问题方面取得了一定成效,并非完美无缺;然而,在这种情况下(即当问题具备可微性特征时),可微分空间同样可用于优化过程,并且由于其基于梯度的方法使其能够有效地定位局部最优解。
为了在梯度空间中进行优化操作而采用基于梯度的方法时通常会遇到两种主要策略. 其中一种主要策略就是依赖于变分自编码器(VAE)等模型将离散候选假设映射至潜在可微分空间中的具体位置. 另外一种常用策略则是通过将离散假设转化为连续或可微形式使得其能够在可微分空间中进行优化这一过程可通过多种途径实现包括将离散变量替换为连续变量或者采用软化原始约束的方法.
在物理学领域中,符号回归的应用依赖于基于语法变分自编码器的模型(grammar VAEs)。这些模型通过将离散的符号表达式转换为解析树的形式来建模。通过上下文无关文法将这些解析树映射至可微分的潜在空间。接着,在符号法则的潜在空间中应用贝叶斯优化进行优化操作,并且保证生成的所有表达式均符合语法规范。
在相关文献中记录了Brunton等人的工作。该方法通过赋予预设基函数可学习权重的方式来区分符号法则。稀疏回归用于选择基函数的线性组合,并且这些基函数能够精确地表示动态系统的同时保持简洁性。与强制对称性的等变神经网络不同的是,该方法能够通过揭示对称性来识别领域内的典型行为模式。例如,Liu和Tegmark描述了一种将不对称性作为平滑损失函数的方法,并利用该损失函数提取了之前未知的对称特性。这一创新方法被成功应用于分析黑洞波形数据,从而发现了令人意想不到的时间空间结构,而这些结构在过去一直是难以发现的关键特征
在天体物理学领域中,变分自编码器(VAEs)被用于基于预训练的黑洞波形模型来估计引力波探测器的参数。这种方法的速度比传统方法显著地快六个数量级,并使得捕获瞬时引力波事件成为可能。
在材料科学领域中, 热力学定律与自编码器相结合, 以构建具有可解释性的潜在空间, 从而确定晶体结构相图的关键特征. 化学研究中, 类似于将简化分子输入线条系统(SMILES)转化为可微分潜在空间的VAE模型, 能够将SMILES字符串转换为一个可微分的潜在空间表示, 便于利用贝叶斯优化技术进行参数优化(参考图3c). 通过将分子结构表示为潜在空间中的点, 我们能够构建可微分的目标体系, 并运用自监督学习对这些目标进行优化处理, 从而基于分子的潜在表示来预测其属性特征. 这意味着我们可以通过AI预测器借助梯度反向传播的方法, 对离散的分子结构进行优化处理, 将其从离散值表示转化为连续值表示. 解码器则能够近似地将这些分子表示还原回相应的原始离散输入形式. 这种方法不仅适用于蛋白质设计研究, 同样也被成功应用于小分子化合物的设计探索中
相较于机制性方法而言,在潜在空间中的优化过程能够更为灵活地对底层数据分布进行建模。
然而,在假设空间中稀疏区域展开外推预测时,并不理想。
在众多科学领域,
估计存在数量上极其庞大的不同分子种类,
例如,
大约存在约 1.6×10^63 种不同的分子,
而即便最大的化学库也只有大约 9×10^9 种分子。
因此需要开发一些有效的搜索方法来深入探索这些未被探索的区域并筛选出高质量的候选解。
图3:

图3 | AI引导的科学假说生成
a. 通过高通量筛选技术,在实验生成数据集上训练的AI预测器能够有效从大量对象中筛选出少数具有理想特性的对象,并将候选对象的数量降低至原来的百分之一或千分之一。首先,在大量未经任何筛选的对象中进行预训练,并在此基础上利用带有标注结果的数据集对预测器进行微调。通过引入实验室评估和不确定性量化技术来进一步优化该方法,使整个流程更加高效经济,并加快对候选化合物、材料和生物分子的识别速度。
b.
c.
四、AI驱动的实验和模拟
通过实证分析构建科学假说已成为获取科学发现的重要手段。尽管实验室实验在资源消耗方面具有较高的成本,并且在实际操作中存在诸多挑战。因此,在实际应用中逐渐发展起来的计算机模拟方法作为一种高效的替代手段开始受到关注。这些模拟为科学研究提供了更为高效与灵活的研究工具,并且能够更好地满足复杂系统研究的需求。然而这些模拟依赖于人工设定的一些参数以及基于经验或启发式的建模方法来近似现实世界的情况 在精度与计算速度之间需要进行权衡分析以获得最优结果 这对于深入理解其内在机理具有重要意义
在深度学习的不断发展过程中,这些挑战正逐渐得到克服。人工智能能够有效地识别并优化假设,并显著提高了实验测试效率的同时利用计算机模拟技术建立起观测结果与假设之间的联系。
1、科学假说的高效评估
该系统为实验设计与优化提供了创新性解决方案,在提升研究效能的同时实现了对资源的有效配置。其核心功能体现在两个关键环节上:一是通过智能算法完成精确的实验规划任务;二是借助机器学习模型实现精准的指导流程作用。相较于传统方法而言,在辅助进行这两个关键步骤方面具有独特优势——首先,在初始阶段仅需少量试验即可确定最优方案;其次,在后续迭代过程中能够根据历史数据不断优化模型参数以提高预测精度;最后,在动态变化的研究场景下能够快速响应并作出合理决策以确保研究安全性和可靠性
这些AI方法可以分为两类:一类是基于模型的方法,通过模拟与先验知识相结合的方式进行实验指导;另一类是完全无模型的方法,则完全依靠机器学习算法来进行优化。此外,在实际应用中可以根据具体需求选择合适的策略。
AI系统能够通过优化资源使用的同时减少不必要的试验来辅助设计科学实验流程;与假说搜索不同的是,在科学实验设计的具体步骤与流程上注重细节
以合成规划为例,在化学领域中
在实验过程中进行决策时,则通常需要能够即时适应环境的变化。然而,在依赖人类经验和直觉来处理这类决策时,则既可能面临挑战又容易出现错误。强化学习提供了有效的替代方法,在动态环境中持续应对变化并优化策略。例如,在托卡马克等离子体的研究中被证实其有效性,并与相关的托卡马克模拟器协同工作以优化控制过程的策略(见图4a)。
在另一项研究中,一个强化学习智能体通过实时数据(如风速及太阳方位角)对平流层气球进行控制,并识别有利气流以实现导航功能.在量子物理领域,实验方案需动态地进行调整,以便确定复杂实验的最佳实施路径,这些决策往往违背直觉.通过反复进行实验并从中获取反馈,强化学习算法得以有效解决此难题.例如,强化学习技术已被成功应用于量子系统测量与操控优化,从而显著提升实验效率与准确性
2、通过模拟从假设推导可观测量
计算机模拟是一种极具威力的手段;它能够从假设中推导出可观察量;从而使得无法直接检验的假设也能得到评估;现有研究中的模拟方法往往严重依赖于对研究对象潜在机制的理解与知识储备;这在很大程度上限制了其效率与效果;而人工智能系统通过更为精准与高效的机制来提升计算机模拟的能力;例如更加精确地拟合复杂系统的关键参数;能够求解更为复杂的微分方程组;以及更好地描绘复杂系统状态的变化过程。
科学家们通常通过构建涉及参数化的模型来探究复杂系统的行为模式,在这一过程中需要依赖领域知识来设定参数的初始符号表达形式。例如,在分子力场领域中虽然具备一定的可解释性但其在表示广泛的功能类别时仍有局限性因此往往需要借助诱导性偏差或科学知识来辅助生成新的数据点以提升模拟精度为了提高分子动力学的准确性研究人员开发了一种基于人工智能的神经势模型这种势能函数能够有效地拟合来自量子力学计算得到的高精度数据同时还能帮助定位自由能表面中的能量障碍从而优化分子动力学模拟效率(如图4b所示)。对于粗粒化分子动力学研究AI模型被用来降低计算成本通过动态调节系统的粗粒化程度以达到平衡计算效率与模拟精度的目的在量子力学领域神经网络因其高度灵活性和对数据的良好拟合能力已经被用来替代传统的符号形式以参数化波函数或密度泛函从而推动相关研究的发展
微分方程在模拟复杂系统的时空动态中发挥着核心作用。相较于传统的数值代数求解器而言,在整合数据与物理规律方面基于AI的方法展现出更高的无缝性。这些新型求解器通过融合物理学原理与深度学习技术实现了更高的灵活性,并广泛应用于多个领域的微分方程建模工作中。具体来说,在计算流体动力学分析方面取得了显著成效,在玻璃态系统结构预测方面也展现了独特优势,在刚性化学动力学问题的数值处理上则表现出更强的能力,并且成功应用于光线传播时间预测等关键领域的问题建模中。
在动力学建模过程中,连续时间可通过物理规律下的微分方程来描述。通过引入物理约束的损失函数,在时空域中训练神经网络以逼近纳维-斯托克斯方程的解。尽管如此,在标准卷积神经网络中难以捕捉解的空间细节特征。这一挑战可通过设计 learnable operators 来克服——这些算子能够通过神经网络学习任意函数间的映射关系。同时求解器需具备适应不同物理领域及其边界条件的能力——这可通过整合图结构信息到数值求解框架中来实现,并具体而言,在实际应用中可采用模块化策略实现灵活离散化。
3、利用统计建模对复杂系统进行全面描述
统计建模作为一种强大的工具,在构建对复杂系统状态分布的模型时为其提供了全面而精准的概率分析框架。其对高度复杂的概率分布在处理上具有显著优势,在当前应用领域已展现出重要价值。其中最著名的一个例子是基于归一化流的概率生成模型(见图1)。通过一系列可逆神经网络模块,在任意复杂的概率分布空间内完成到简单先验分布在如高斯分布在其中的一一映射关系,并最终还原至原始数据空间以完成完整的特征提取与重建过程。尽管这一过程涉及大量计算资源需求(通常需要数百甚至数千个神经层),但其精确的概率密度函数构建能力使其能够在采样与训练任务中展现出卓越性能。
与传统的模拟不同的是,在归一化流中可以通过直接从先验分布中进行采样并结合神经网络实现平衡态的具体生成过程
微分方程在模拟复杂系统时空dynamic方面发挥着关键作用。相较于传统数值代数求解器,在整合data与physical laws方面更加高效地实现了信息处理。这些新型neural network models通过巧妙结合domain knowledge with machine learning architecture展现出融合了physics principles with artificial intelligence advantages(见图4c)。此类method已在多个科学与工程领域中得到了广泛应用,并被用于解决从computational fluid dynamics到earthquake wave propagation等各类问题。
从动力学建模的角度来看,在连续时间域内可以利用深度前馈神经网络(DNNs)来进行建模。通过引入物理约束的损失函数,在时空域内应用神经网络可以有效地参数化纳维-斯托克斯(Navier-Stokes)方程的解。尽管如此,在捕捉解的精细结构特征方面传统卷积神经网络仍显不足。针对这一挑战可通过设计学习型算子实现变量间的映射关系,并通过网格划分技术将复杂系统划分为若干小单元来进行离散求解。为了适应不同领域及边界条件的需求,在结合神经微分方程的基础上可进一步采用图神经元(GNNs)模型,并通过网格划分技术将复杂系统划分为若干小单元来进行离散求解。
统计建模作为一种强有力的工具,在数据分析与预测中发挥着不可替代的作用。它通过建立系统的数学模型来揭示变量之间的内在关系,并为决策提供科学依据。在复杂系统模拟领域中,深度生成模型已成为一种关键的技术手段,在此过程中它能够捕捉到数据潜在的概率分布特性。其中最著名的一个范例是基于归一化流构建的玻尔兹曼生成器(参见Box 1)。归一化流方法通过一系列可逆神经网络层来实现对任意复杂概率分布进行精确映射,并最终还原原始数据分布特征。尽管这一过程涉及较大的计算成本(通常需要数百到数千个可逆神经网络层),但通过这种方法我们得以实现精确的概率密度计算与高效的数据采样操作。
不同于传统的模拟方法,在归一化流框架下可以直接从先验分布中提取样本并借助于神经网络模型来生成平衡状态。这种操作所带来的计算开销固定不变,并且显著提高了晶格场和规范理论采样的效率水平;同时改进了马尔科夫链蒙特卡罗技术的性能,在模态混合理常导致难以收敛的问题上也表现出了显著的优势。
五、重大挑战
为了依赖科学数据的获取, 需要综合运用模拟技术和人类的专业能力来搭建模型框架并开发其应用. 这种融合提供了新的研究视角与方法论突破机会. 然而, 在进一步扩展其应用范围方面仍需在理论、方法、软件和硬件基础设施四个维度上实现突破性进展. 跨学科协同对于推动人工智能技术与传统科学研究深度融合具有关键性的协同作用.
1、实际考量
受限于测量技术的局限性,科学数据集往往难以直接应用于AI分析。这些局限性可能导致数据不完整、系统性偏差或不一致性,并因隐私与安全方面的担忧而导致访问受限。因此,在减轻数据处理负担方面,《标准化》《透明度》的数据格式至关重要。模型卡片与《数据分析表》体现了对科学数据记录的努力,《联邦学习》与《加密算法》则通过技术手段能够有效防止公开高价值敏感信息。
借助开放获取的科学文献库以及先进的自然语言处理技术和知识图谱等先进技术,在推动文献挖掘的同时,能够有效推动材料创新、分子设计以及医学治疗研究。
深度学习在AI驱动设计、发现与评估方面面临着复杂的挑战。为了实现自动化科学工作流程、优化大规模模拟代码并操作设备的目标,自动化机器人控制能够基于预测结果,在高通量合成与测试线上开展实验操作以形成"自Generated Models in materials exploration demonstrate the potential to identify millions of candidate materials with desired properties and assess their synthesizability."driven实验室。
例如,在研究酵母的功能基因组学时, King等人巧妙地将逻辑AI与机器人技术相结合. 在这一过程中, 自动化系统能够自动生成关于酵母的功能基因组学假设, 并借助实验室自动化系统核查这些预测结果. 在化学合成领域中, 在指导合成路线方面取得显著进展: 基于AI优化筛选出最佳合成路线, 并借助实验室自动化系统实现预测结果的快速转化.
AI系统的实际应用涉及复杂的软件与硬件集成,在实施过程中需要遵循多个相互依存的环节进行操作包括数据整理与预处理、算法开发与实现以及系统架构设计等多个关键阶段。即便在实施过程中出现微小的调整或优化细节也可能带来显著的效果差异进而影响其在科学实践中的成功部署因此建立统一的数据规范与模型标准对于提升整体系统的可靠性和可维护性至关重要
AI方法主要由于模型训练中的随机性影响、模型参数的变化以及训练数据集的演变更难以实现完全可重复性问题。这些源于数据依赖性和任务关联性的问题使得结果呈现一致性变得困难重重。为了缓解这些问题可以通过实施规范化的基准测试及科学的设计方案来改善这些问题。另一个提升可重复性的途径则是通过推动开源社区发展发布更加透明开放的资源包括提供高质量的数据集与技术支持等
2、算法创新
为了深化对科学本质的理解, 人们需要在研究中进行理论探索, 或者通过自主学习来拓展知识面. 算法创新对于推动科学研究具有至关重要的作用. 该系统不仅能够构建一个基础性的生态系统, 并且能够提供最适合整个科学研究进程的算法体系.
分布外泛化被视为AI研究的一个重要前沿问题。神经网络在特定的数据环境中进行训练时可能会识别出某些规律,然而这些规律在环境分布发生变化时可能无法有效应用。尽管许多科学规律并非普遍适用,但它们通常具有较广泛的适用性。相较于目前最先进的AI技术而言,人类在适应新环境以及应对环境分布变化方面展现出了更为迅速和灵活的特点。一种有趣的假说认为,这是因为人类不仅构建了对观测现象的统计模型,更建立了包含各种统计模型的因果模型,并且能够对不同的干预进行推理,例如不同的初始状态、行动策略或环境干预等。
在AI领域深入研究因果性仍是一个充满前沿性和巨大潜力的研究方向,并非没有未完成的工作。自监督学习等技术在科学领域展现出巨大前景的原因在于其能够充分利用海量无标签数据,并将其知识迁移到数据匮乏的情境中。然而这些现有的迁移学习方法往往缺乏系统的理论支撑容易受到底层数据分布变化的影响尽管已有少量初步研究尝试解决这些问题但仍需进一步探索以便系统性地评估跨领域的迁移能力并尽量降低负迁移的风险
面对科学家在实际研究中的诸多挑战, 确保 AI 方法能够在真实环境中的应用是必要的. 例如, 在化学合成路径的设计阶段, 同时通过精确估算不确定性的范围来实现模型可靠性的评估. 这些举措是确保 AI 技术成功应用于现实领域的关键环节.
科学数据具有多样化的特征,并涵盖图像形式(如来自天体物理学的黑洞成像)、自然语言形式(如学术论文)、时间序列数据(如材料热处理过程的老化研究)、生物信息序列、图结构形式(如复杂网络系统)及三维构象形式(如蛋白质-配体构象分析)。例如,在高能物理研究中,喷出流是由高能条件下的强相互作用过程产生的夸克-胶子流体颗粒组成的。通过分析这些粒子流的辐射模式分布特性及其时空演化规律,科学家们得以深入探索新的物理现象。喷出流的子结构特征则可采用图像表示、序列建模、二叉树结构化、一般图分析以及张量网络等多样化的方式进行表征。
虽然借助神经网络对图像进行研究已取得显著成效;然而仅依赖于粒子图像处理无法满足需求;同样地,在孤立地采用喷注子结构时(例如以序列或图的形式),我们仍然无法获得关于复杂系统全面的理解与整合视角;尽管如此;在多模态数据整合方面仍然面临诸多挑战;但由于神经网络具有高度可模块化的特性,在此过程中不同类型的神经网络模块能够有效地将输入的数据统一转化为一致且可比较的向量形式;这种特性使得多模态数据整合成为可能。
这些科学领域的关键概念(包括分子旋转等变性现象、数学中的等式约束、生物学中的疾病机理以及复杂系统中的多尺度结构)都可纳入人工智能框架
人工智能(AI)方法通常被认为是"黑箱"结构,在这种情况下, 人们很难解析其输出生成的具体机制, 以及哪些输入因素会对结果产生关键影响. 这种"黑箱"特性会导致用户的预测信心水平下降, 并限制了该技术在特定领域中的广泛应用, 尤其是在那些要求深入理解模型输出以便实际应用的情境中, 如太空探索项目或气候科学政策制定. 尽管目前已有多种解释性工具和技术被提出, 但现有的深度学习模型依然缺乏足够的透明度.
尽管人类大脑仅能构建不完美的高层解释, 但这些能力足以说服他人, 这带来了乐观的前景: 利用与人类相似的高抽象水平建模现象, 未来的AI模型有望能够提供具有强解释性的输出, 有望达到甚至超越人类大脑所能提供的价值. 研究这些高层次的认知机制将为深度学习模型提供启发, 帮助未来的AI不仅能够保留当前深度学习的能力, 还能操控可语言化的抽象概念, 进行因果推理, 并实现超出训练分布范围的能力.
3、科学及科研事业的进展
未来方向上来看,人工智能专业知识的需求将在两个主要趋势下得到加强。首先,有许多能够在人工智能应用中受益显著的问题,例如自动驾驶汽车及其相关领域就是一个典型例子。其次,智能工具不仅能够提升现有的技术水平,还拥有开拓新机遇的能力,例如深入探索难以通过实验直接观测到的生物、化学或物理过程中的复杂现象。基于这两股主要趋势的影响,我们有理由相信,未来的科研团队结构将进一步多元化发展,吸纳更多人工智能领域的专家成员,并形成更加多样化的合作关系,这不仅限于高校与企业的协作,还将涵盖各级政府机构及产业界的力量结合在一起共同推进相关研究与发展工作
当前最前沿的深度学习系统持续扩展中,在线下线上均呈现快速增长态势
虽然营利性以及非学术性质的组织同样可以获得大量计算资源, 但高等教育机构在多学科整合方面却占据明显优势. 此外, 在历史上拥有独特的数据集合以及测量技术的机构通常起着关键作用, 这些在其他地方可能无法轻易获取, 但对于AI科研领域却具有重要意义. 这些额外资源促进了新的跨学科行业模式的发展, 并深刻塑造了科学研究的方向及其目标.
当人工智能系统的能力逐渐逼近甚至超过人类水平时,在实验室中执行日常任务已成为越来越实际的选择。该方法使研究人员得以利用实验数据构建预测模型,并通过持续优化来确定最优实验方案以改进结果。与此同时,在这一转变过程中随之出现的各种教育项目旨在提升科学家设计、实施和应用实验室自动化及人工智能于科学研究中的能力。这些项目帮助科学家更好地理解如何正确运用AI工具,并避免因AI分析而导致错误结论的发生。
尽管存在误用及其结果的理解偏差所带来的严重负面影响,
因为AI的应用领域十分广泛,
这些潜在的风险可能进一步扩大化。
然而,
不仅涉及技术层面的问题,
而且与推动人工智能创新和发展投资人工智能实施机构的目标高度相关。
为此,
建立伦理审查机制以及负责任的实施策略至关重要,
其中包括全面评估适用范围及应用场景。
同时,
还必须考虑与人工智能相关的安全风险,
尤其是当算法更容易被重新利用于双重用途的情况下。
由于人工智能的高度灵活性,
同一工具可能被赋予不同的功能或用途,
这可能导致安全威胁并引发滥用的可能性。
当人工智能(AI)系统的性能逐渐逼近甚至超越人类水平时,在应用在实验室的传统工作中越来越容易实现
使用不当及其结果可能导致严重的负面影响;鉴于其广泛应用性, 这种风险可能进一步加剧;然而, AI工具误用不仅涉及技术层面的问题, 更与推动人工智能创新及投资于人工智能技术实施的相关机构的行为动机密切相关;建立伦理审查机制及负责任的操作策略至关重要;其中一项重要措施包括全面评估人工智能的应用领域及其应用场景;特别注意的是, 必须重视与人工智能相关的安全风险;尤其是在算法更容易被重新利用以实现多种功能的情况下;因为人工智能具有高度可变性, 它们可能被设计用于某一特定目的, 但最终却会应用于其他目的
六、结论
人工智能技术有助于深化科学研究,并支持对难以可视化或探测的研究对象进行深入探索。利用数据建模、模拟以及可扩展计算等手段引导科学新发现。为了充分发挥其潜力,必须采取负责任和技术审慎的方式应对AI带来的安全与隐私挑战。
为了科学合理地将人工智能技术应用于科学研究中,在项目规划初期需对人工智能系统的性能进行深入分析与评估。这种理解不仅有助于准确解读其输出结果及避免对其可能存在的缺陷结果过度依赖,并且具有重要意义。伴随着人工智能技术的持续发展与进步,在项目执行过程中应始终将可靠实施作为首要目标的同时采取适当的安全防护措施以规避潜在风险。鉴于目前人工智能展现出巨大的潜力与应用前景,在未来研究中我们应当充分挖掘这一资源以推动更多突破性发现
该人工智能(AI)技术能够显著增强人类对自然规律的理解能力,并为那些传统方法难以直观呈现或识别的过程与事物提供深入研究的工具。与此同时,在结合数据建模、模拟技术和可扩展计算的基础上进行技术整合与应用开发,则有助于引导人类形成新的科学认知。为了最大化这种技术的潜力,并非易事;必须采取负责任和技术审慎的方式应对相关挑战。
为了负责任地将人工智能技术应用于科学研究领域,我们必须评估人工智能系统所产生的不确定性、计算误差以及实际应用效果.准确解析人工智能系统的行为模式及其结果质量至关重要;同时要避免因误判而导致的风险.随着人工智能技术的进步,特别强调可靠实现与适当安全防护并重,这是降低风险并最大化收益的关键所在.此外,这一领域的巨大潜力能够推动人类探索那些过去难以触及的知识边界.
