AIDD-人工智能药物设计-基于多智能体的药物靶点相互作用预测
DrugAgent:基于多智能体的药物靶点相互作用预测

目录
- ATOMICA模型用于研究生物大分子相互作用的通用表征机制,并明确疾病发生机理以及蛋白质功能预测问题。
- DrugAgent通过多智能体框架结合大型语言模型实现了药物靶点相互作用推断系统的高精度与可解释性。
- FFADW整合序列特异性和网络拓扑特征提取方法学显著提升了蛋白质相互作用预测准确性。
- Genomic Tokenizer (GT)采用密码子分词策略成功地实现了Transformer架构在DNA序列分析中的高效建模。
- 知识蒸馏技术成功地实现了分子性质预测模型的参数压缩过程,在保持甚至提升预测性能的同时显著降低了模型规模和训练时长。
1. ATOMICA:跨模态生物分子交互的通用表征学习模型
该几何深度学习架构构建而成的ATOMICA模型具备独特的特性:它通过学习表征整合了多种生物大分子及其相互作用机制的基础架构。该模型基于超过200万个相互作用复合体的大规模自监督训练策略,在层次化嵌入的基础上捕捉从原子到化学块再到相互界面的不同尺度特征,并且这种表示方法具有良好的跨异构体适应能力。
该系统通过交互式模块化设计实现了特定类别的交互组网络构建(ATOMICANET),其基础在于利用蛋白质间相互作用界面相似性进行蛋白质关联。研究结果表明这些网络不仅揭示了共同存在的疾病通路,并且能够辅助预测相关蛋白功能。具体而言,在脂质基质中的互动模式下识别出与哮喘患者相关的钠离子通道蛋白;而在离子交换机制下的互动模式下则定位到白血病相关的关键Zn指蛋白结构特征。在自身免疫性疾病案例中(如多发性硬化症和周围神经病变)的情况下,“ATOMICANET”系统以100%准确率筛选出高置信度的目标蛋白片段(包括电压门控钾通道和钠通道)。
ATOMICA 的潜在空间根据物理原理组织原子和化学特征,无需监督即可恢复与元素周期表、氨基酸化学和核酸特性一致的模式。ATOMICA 支持对交互进行组合推理,类似于词嵌入中的向量运算,即使蛋白质序列不同,也能捕获复合物之间的语义相似性。使用 ATOMICASCORE 指标,该模型可以零样本识别对分子间相互作用贡献最大的残基,在结合位点识别方面优于大型蛋白质语言模型(如 ESM-2)。跨多种分子模态的预训练显著提高了泛化能力,例如,ATOMICA 将蛋白质-DNA 结合位点恢复的 AUPRC 从 0.24 提高到 0.71。
此外, ATOMICA 通过识别超过 2,600 个配体结合位点(包括新的 C4 锌指基序与血红素结合跨膜细胞色素)来标记暗蛋白组(此前未被表征的蛋白质区域)。这些暗蛋白标记覆盖了 1,200 多种物种,并通过结构信息而非序列数据恢复了其进化历史功能。

ATOMICA 的限制主要体现在对其所依赖的数据类型以及难以涵盖的部分上,并且在未来的研究中计划融合非结构化相互作用数据以及基于序列特征的信息以扩大其适用范围;此外该方法为构建相互作用分子模型以及引导治疗提供了重要基础并成功地实现了将分子尺度几何特性和疾病系统层面的理解相联系
💻Code: https://github.com/mims-harvard/ATOMICA
📜Paper: https://www.biorxiv.org/content/10.1101/2025.04.02.646906v1
2. DrugAgent:基于多智能体的药物靶点相互作用预测
该系统是一个创新性的多智能体平台, 专注于推断药物靶点间的相互作用机制(DTI)。研究团队综合运用机器学习技术、知识图谱构建以及文献分析等多种视角, 并通过构建基于思维链(Chain-of-Thought)框架与ReAct模块化的推理引擎, 实现了可解释性推断过程。与传统黑箱模型不同的是, DrugAgent为每一个预测生成清晰易懂的解释说明, 这一特点使其特别适合应用于需要高度透明度的临床决策支持系统及监管环境中
该系统包含五个关键组件:协调器、基于机器学习的AI、知识图谱KG、文献检索模块以及推理引擎。每个组件均承担着提供相关评分指标及运行机制的任务,在此过程中这些信息经过整合后形成DTI预测结果。在激酶与化合物基准测试中,DGTAgent表现出显著优势,其F1分数达到0.514,较非推理型GPT-4o mini基准提升了约45%(具体值为0.355),同时其特异性能达到最高水平,即达到97.8%,这一特性对于有效降低药物发现中的假阳性具有重要意义
AI 智能体主要依赖于DeepPurpose技术与消息传递神经网络(MPNN)以及卷积神经网络(CNN),通过分析SMILES字符串与蛋白质序列数据,在BindingDB数据库中进行训练并评估二元结合亲和力。KG智能体则基于DrugBank、CTD、STITCH以及DGIdb等数据库构建统一的知识图谱,并计算基于路径的药物相互作用得分,在强调生物学相关性的同时实现药物靶点间的精准关联。搜索智能体则采用基于关键词的相关性度量方法与基于生成式AI的摘要机制,在Bing搜索引擎上检索与评估相关信息,并提供丰富的背景知识及潜在的临床支持信息。推理系统通过LLM技术构建推理链来整合各类证据数据,在计算加权评分的基础上验证结果一致性并给出最终决策建议;即使在ML置信度接近边界的情况下仍可通过知识图谱及文献支持提供合理的预测结论
消融研究表明DrugAgent展现出卓越性能:当去除AI智能体影响时会导致准确性急剧下降;而KG与搜索智能体则分别在降低假阳性率与提升准确性方面发挥了显著作用;此外DrugAgent还模拟了协作研究团队中的角色;这种模块化设计便于扩展性应用;例如可以引入检索增强生成(RAG)智能体或患者特定的数据输入;尽管Token成本较简单模型高出10倍;但DrugAgent凭借其可解释性与均衡性能在实际生物医学应用中更具价值尤其是在高风险决策依赖于理解模型基本原理的情况下;该框架具备灵活性可复现性和扩展性;通过AutoGen DeepPurpose RDKit以及多个LLM实现了这一框架在消费级Mac设备上的部署;所有智能体均遵循严格的模板以确保系统完整性

rna-seq数据集的构建流程主要包括以下四个步骤:第一阶段为RNA分离与纯度检测;第二阶段是cDNA扩增与文库制备;第三阶段涉及特征分析并设计降噪算法;最后阶段是对数据集进行分类处理并完成标准化工作。
3. FFADW:精准预测蛋白质相互作用的新方法
FFADW 是一种新型蛋白质相互作用(PPI)预测方法。该方法综合运用了蛋白质序列相似性和网络拓扑信息。研究者采用了Levenshtein距离提取序列特征信息,并运用高斯核函数计算网络特征。随后采用调节参数α对这两种互补的数据类型进行加权融合生成统一且降噪的表征。其中调节参数α用于平衡序列和网络贡献
Attributed DeepWalk旨在通过整合节点属性与网络结构来学习低维嵌入,并显著提升了表示性能的同时保持了简洁性和可解释性。研究者进行了FFADW性能评估,并在S.cerevisiae、Human以及H.pylori三个基准数据集上分别获得了95.56%、98.68%和88.2%的高准确率;特别地,在Human数据集上的表现尤为出色,AUC值达到0.994,接近完美水平
与Bio2Vec、GcForest-PPI及EResCNN等现有先进方法相比,在绝大多数关键指标(如准确率、MCC及AUC值)方面均展现了显著优势。多组实验证明,在通过特征融合技术的持续优化下,样本聚类与分类性能得到了明显提升,并可通过t-SNE技术进行可视化分析以及ROC曲线进行验证以进一步确认这一发现。此外,在多种分类模型中(如SVM等),FFADW均表现出稳定效果;而通过统计分析表明,在多数数据集上使用XGBoost展现出显著的优势,并且这些优势在统计学上有显著意义
该模型在可解释性和预测性能方面具有良好的平衡。特别适合那些面临计算资源受限或者训练数据量不足的情况的研究者。未来研究者可能值得探索的方向包括自适应 α 调优策略以及将注意力机制与图神经网络相结合的方法。这些改进手段旨在以便更好地应对复杂度更高的生物网络分析问题。

Research Article: https://www.nature.com/articles/s41598-025-96510-9
Repository: https://github.com/StacyMYCao/FFADW
4. 基于生物学原理的 DNA 序列分词器:Genomic Tokenizer
Genomic Tokenizer (GT) 开发了一种遵循生物学原理的 DNA 序列分词方案,在其核心理念上使用密码子(三个核苷酸序列)作为分词单元。这种方案不仅在本质上不同于现有的字符或k-mer tokenizer,在功能上也具有显著差异性。值得注意的是该系统能够识别起始密码子和终止密码子,并将同义密码分配到相同的标记,在这一过程中同时将内含子和框外区域视为UNK标记这一行为非常值得肯定。此外该策略不仅减少了词汇量的数量,并且成功保留了与生物特性相关的关键信息
在HuggingFace tokenizer框架内成功实现了GT技术,并能够完美地融入现有的基于Transformer的DNA分析流程中。该分词器不仅具备涵盖诸如掩码语言建模和序列分类等多样化任务的能力,并且提供了灵活的支持以适应不同类型的生物体
在肺癌相关变异数据集上的分类实验表明,在处理长序列时相对于字符分词方法而言GT展现出更高的稳定性,并且对于较长序列的任务而言更为出色。然而由于其庞大的词汇量导致计算成本显著提高而字节对编码(BPE)则凭借卓越的整体性能成为性能最强的技术手段。GT则通过实现良好的平衡将生物学见解计算效率与精简的词汇量三者巧妙地结合在一起
GT 分词成功地抑制了重叠 k-mer 分词器中常见的 mask language modeling 中的冗余和信息泄漏问题,从而提供了更为清晰的训练信号和潜在更强的泛化能力。GT 的生物学基础使其成功模拟框移突变、同义替换和终止增益变异等关键遗传变化——这些变化是通过遗传数据准确预测表型影响的核心要素。初步比较凸显了 GT 在生物建模领域的显著优势,并表明与传统数据驱动的分词器相比,在基因组学任务的基础模型训练中具有潜在的技术优势。
GT 是 open-source 的开源项目,并可通过 PyPI 安装获取。同时建议将其应用于基因组数据集以及 Transformer 架构(如 HyenaDNA 等长上下文模型)中的深入研究。

Paper: 该研究内容已发布在https://www.biorxiv.org/content/10.1101/2025.04.02.646836v1上
Code: 访问该代码库位于https://github.com/dermatologist/genomic-tokenizer处
5. 知识蒸馏提升分子性质预测:模型更小,精度更高
研究者构建了一个整合知识蒸馏技术(KD)于分子性质预测的统一框架。该框架在回归任务中实现了R²值的显著提升至70%,同时显著降低了模型体积与训练所需时间。此方法使简化的学生模型(最多缩减至2倍)在量子数据集(QM9)以及实验基准测试(ESOL、FreeSolv)中展现出与复杂教师模型相当甚至超越的能力,验证了其在特定领域以及跨领域的适用性。
该框架在 SchNet、DimeNet++ 和 TensorNet 三种图神经网络架构上显著提升了嵌入对齐与预测精度水平。特别针对原子化能与溶解度等复杂性质的预测任务,在 QM9 预测任务专门设置下,在处理较简单的量子性质时 DimeNet++ 采用较小规模的学生网络即可获得高达 90%的 R² 增益;而对于 Schnet 来说,在处理复杂性质时即使使用较大的学生模型其增益也相对较低。
基于QM9训练的教师模型在跨领域实验数据集(包括ESOL(logS)和FreeSolv(ΔGhyd))上实现了迁移。通过KD方法,显著减少了理论与经验数据之间的分布差异。该研究进一步发现,在溶解度预测任务中,采用KD策略相比传统方法提升了约65%的R²值。通过深入分析嵌入空间特征,在KD框架下,学生模型与教师模型间的余弦相似度明显上升。这一结果验证了跨域知识迁移的有效性及其对结构表示学习的支持。
KD在处理非 QM9 类分子方面表现尤为突出,具体而言,它未曾涉及过的原子或基团,这一特性凸显出其在类似药物分子及复杂化合物处理上的实用价值。该框架通过整合 MAE 方法与余弦相似度损失,并引入可学习不确定性权重,构建了一个性能优越的任务自适应优化体系,无需人工微调即可实现最佳效果。
相较于剪枝或迁移学习而言,KD提供了一种结构化且稳健的方法用于模型压缩,这种技术不仅能够保持关键化学知识并加速推理过程,而且对于高效筛选具有重要意义.这项研究工作不仅展现了该方法在分子回归领域的扩展潜力以及与其他现有架构的有效兼容,而且为其在未来基于少样本和Transformer架构的分子建模应用中提供了重要的理论依据和实践指导
Paper: https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202503271
Code Repository: https://github.com/PEESEgroup/Knowledge-Distillation-For-Molecular-Properties

