【论文阅读】中医类药性分析:使用机器学习方法预测类药性
研究背景:
背景知识:
新药创制过程:

先导物的发现与优化约占价值链10%,时程约3-5年, 但决定了后面90%的命运。
优化主导物以及确定候选药物在新药研发过程中至关重要;候选药物的质量由主导物质量高低及其评价标准决定;发现与确定高质量主导物是新药研发过程中的第一步。
我们当前的工作重点在于鉴定先导化合物是否具有类药性特征。(该任务的标准是鉴定先导化合物是否具有类药性特征。而成药性的要求则是针对候选药物的评估标准)
摘要
从大量化合物中筛选出高质量的先导化合物有助于推动新药研发整个流程的发展。为了这一目标,在研究过程中构建了基于分子理化特性和结构指纹图谱的贝叶斯分类模型框架,并据此预测类药性。(此外,在此基础上开发了递归划分法(RP)模型,并通过比较发现朴素贝叶斯方法 NBC 性能更优)
首先:用于筛选候选分子物种,并且研究发现,在预测性能方面,结构指纹图谱相较于分子理化性质表现更为突出。结果显示贝叶斯分类器的预测精度与训练集的大小及平衡程度密切相关。当采用平衡训练集时,在21个理化性质指标的基础上结合LCFP_6指纹特征提取方法构建的贝叶斯分类模型能够实现LOO交叉验证下的最高精度达到91.4%以上
其次:基于结构指纹的贝叶斯分类器显著地表现了对药物相似度具有关键性子结构的影响,并为此提供了极其重要的信息
在本研究中,最优贝叶斯分类器应用于中医药数据库(Traditional Chinese Medicine Compound Database, TCMCD)。结果显示其中有约59.73%的分子被归类为类药性分子,并表明中药是优良的类药性分子来源。通过检测和分析TCMCD中的重要结构指纹图谱,在考虑其药理学特性和MDR(Minimum Drug Requirements Report)作为关键结构联系的基础上,从贝叶斯分析中获得的重要结构注释签名可能有助于识别潜在化合物的功能,并因此促进中药的发展这一新视角
一、介绍
并非所有的化学分子都能被制成药品。然而,在这个浩瀚的空间中可能存在无数种可能性:化学分子的空间可能高达10^{40}-10^{100}这么大,在科学家们的探索下已经发现了大约2.7^{7}种化合物(化合物的数量),其中能够制成药品或具有类似药物特性的数量则少得多。
将化合物转化为药物存在诸多挑战,如何规避耗时的流程是一个值得寻求解决之道的问题。
- 药物数据库:
包括Medicinal chemistry(当前药学化学)、Drug data report(MDL药物数据报告)以及World drug index(世界药品索引)。
非药用数据库包括non-drug databases, 如 ACD.
二、方法
1.准备数据库
为了确定是否存在类药性,依赖于分子数据库进行系统性分析能够提供可靠的结论。
处理:
最终构成:
MDDR:123927个分子
TCMCD:33961个分子
ACD:123927个分子
2.训练集&测试集
测试集:
共:40,000 个分子
组成:随机在MDDR中选20,000 ,ACD中选20,000 。
训练集:
选出之后剩余的部分即构成训练集,而如何运用这一训练集则是一个值得探讨的问题.
在1998年这一 year里,Sadowski and Kubinyi from each of WDI and ACD selected 5,000 molecules as training sets to conduct drug similarity analysis.
2003年,研究团队采用了分别来自World Drug Indicators(WDI)和Advanced Chemical Database(ACD)的数据集作为训练样本。研究者观察到,在这两个数据库中,ACD所包含的化合物数量显著高于WDI。这使得在分析过程中,来自WDI的化合物与非类化合物的比例从最初的1:44.4急剧下降至接近1:1。
在该研究中,我们致力于探究训练集规模以及两类分子(药物类与非药物类)的比例对药代动力学模型分类性能的具体影响程度。通过建立不同规模的训练集集合来训练并评估多个分类模型。
平衡的训练集:
首先,分别从ACD和MDDR中各随机选取10,000个分子,在两者的混合基础上生成一个平衡的第一阶段训练集(第一阶段训练集)。随后,在每一轮迭代中,分别从MDDR和ACD子集中各随机抽取10,000个分子(即每次抽取总共2万条数据),并将其加入现有最大规模的训练集合中以生成新的阶段训练数据。经过多次迭代后,在最后一次迭代时构建了一个包含所有ACD和MDDR子集条目的完整训练集合(最终阶段)。整个过程一共构建了10个不同规模的阶段性训练集合,并基于这些数据分别建立贝叶斯分类器模型。通过相同的测试数据对所有模型进行验证评估其性能表现。
不平衡的数据集: 在经过平衡处理后获得的4万个分子样本中,在MDDR类别中采用随机抽样方法选取了2千个样本,在ACD类别中则抽取了约1.8万至2千个样本进行整合,并将这些选中的分子整合到新的不平衡测试集中。通过这一过程使得该类药物样本与非类药物样本的比例由原先的1:2提升至1:9。
从平衡测试集外的分子中随机选取了1万例类药物分子,并从ACD数据库中选择了约2万至9万例其他类型的分子来构建不平衡训练集,在每次训练与测试周期中均保证各类别样本的比例与测试数据保持一致。通过计算结果分析,研究了不同不平衡程度对模型预测性能的影响
3.分子描述符的计算
文中采取21个分子描述符

4.分子指纹图谱的计算
采用SciTegic扩展连接性指纹(ECFP、FCFP、LCFP)以及基于日光路径的独特化学式(EPFP、FP FP、LP FP)对所研究分子进行子结构表征具有重要意义
5.类药性的贝叶斯分类器
贝叶斯分类擅长处理海量数据,并具备较快的学习速度和良好的抗噪声能力。此外,在进行分类任务时,朴素贝叶斯方法仅需微小规模的数据集即可估算所需参数(如变量的均值和方差)。

C标志化合物是否具有类药性特性;F标记特征。
p(C|F_1, F_2, \dots, F_n)代表化合物类别的一种后验几率。
p(C)作为先验几率是由训练集确定的。
p(F_1, F_2, \dots, F_n | C)属于一类药物或非药物的化合物具有的描述符集合的概率。
p(F_1,…,Fn)代表给定条件下各描述符在数据集中出现的可能性。
这些三种概率可以从包含大量类药物和非类药物分子的训练集中获取。在之前的讨论中阐述了训练朴素贝叶斯分类器所涉及的数学过程。该分类器是基于Discovery Studio分子仿真包开发的。
6.评价标准
真正例子(TP),真实反例(TN),误报(FP),误报情况(FN)
敏感度:灵敏度SE = TP/(TP + FN)
特异性:特异度SP = TN/(TN + FP)
类药性预测的准确性:Q+ = TP/(TP + FP)
非类药性预测的准确性:Q− = TN/(TN + FN)
马修斯相关指数:C = (TP × TN − FN × FP)/[(TP +FN)(TP + FP)(TN + FN)(TN + FP)]^{1/2}注:马修斯相关指数从0到1(取值范围),数值越大表示分类效果越好。
三、结果分析
3.1平衡数据集分析
如前所述,在本研究中我们采用了具有较大规模的数据集来进行模型训练与验证工作

在训练过程中引入分子指纹能够显著提升贝叶斯分类器的表现能力。基于分子特性的贝叶斯分类器采用ECFP_4、LCFP_4、ECFP_6或LCFP_6特征指纹,在C值超过0.700时展现出良好的分类性能。
特别地,在融合分子特性与改进型LCFP_6指纹集合的基础上建立的最佳分类器模型中
同时
基于分子特性的最优贝叶斯分类器与LCFP_6指纹图谱对于检测集的灵敏度达至87.7%、特异度达至85.0%及AUC值达至0.728。
为了深入探究训练数据规模对分类模型性能的影响, 我们采用了主动学习策略, 将平衡训练集中的分子数量从2.0\times 10^{4}个调整至2.07854\times 10^{5}个, 并建立并验证相应的分类器模型. 多次实验结果显示, 在数据量增加的情况下, 贝叶斯分类器的表现得到了显著提升. 基于包含21个分子特性的贝叶斯分类器及其LCFP_6指纹特征所得到的结果可见于图1.

随着平衡训练数据量从2万增长至14万时,在测试数据上的C值显著提升至约八成(具体数值分别为从零点七五三跃升至零点八一八)。值得注意的是,在这期间尽管我们进一步扩大了训练数据规模(直至两百零七千八百五十四例),但测试数据上的C值仅小幅上升(最终稳定于零点八二九)。研究者发现,在这一过程中,并非所有的模型都能使训练精度高于验证精度(具体而言,在一百八十万例的数据规模下两者均达约零点八二八)。基于以上实验结果分析可知,在保证计算效率的同时达到较高的预测精度水平并不需要过多的数据支持——一百四十万例的数据量已经足够。
基于约14万分子的数据集进行研究,在统一采用相同测试数据的前提下,并对融合了21种分子特性和不同指纹集合的贝叶斯分类器进行了性能分析。这些模型在图2中给出了C值的表现情况。研究表明,在使用约14万样本的数据时所选择的不同指纹特征对模型性能的影响程度与使用约2万样本时相似。通过将这些特征进行融合能够显著提升模型效能的同时实现了更好的泛化能力,并且最终获得了一个性能最优的结果。该分类器的各项指标均达到较高水平,在区分类药物和非类药物方面表现出良好的效果。

基于训练集和测试集构建的两个双峰直方图对两种分类模型进行了评估与比较分析

最后,性能卓越的贝叶斯分类器显著的优势在于其接收者操作特征(ROC)曲线(图4),以及ROC曲线下面积(AUC)分别为14万、4万分子的训练集与测试集所展示的结果验证了该分类器在准确性和可靠性方面的卓越表现。
最后,性能卓越的贝叶斯分类器显著的优势在于其接收者操作特征(ROC)曲线(图4),以及ROC曲线下面积(AUC)分别为14万、4万分子的训练集与测试集所展示的结果验证了该分类器在准确性和可靠性方面的卓越表现。

3.2非平衡数据集分析
已知非药物类分子在数量上占优与药物类分子呈现明显的类别分布失衡状态。为了探究训练集类别比例失衡对贝叶斯分类器性能的影响机制,本研究特意构建了一系列具有不同类别比例的训练与测试数据集,并对其进行相应的分类器验证工作。具体而言,对于每一个贝叶斯分类器系统,其训练数据集与测试数据集中类药物分子与非类药物分子的比例均保持一致,但该比例逐步递增至9:1的比例范围之内。例如取1:2的比例时,训练数据集中将含有10000个类药物分子样本与20000个非类药物分子样本;对应的测试数据集中则包含2000个类药物分子样本与4000个非类药物分子样本。基于所构建的不平衡训练与测试数据集所建立的贝叶斯分类模型预测精度结果如图5所示

研究表明,在类药物分子与非类药物分子比例上升的情况下
同时,在测试过程中发现,在测试数据集中误报数量急剧上升;然而则表明正常情况下该指标并未发生显著变化
在不均衡的数据集中设置较高的C值会随着函数的增大而提升分类性能;相反,在数据不平衡的情况下降低函数值反而会提高模型性能。这一现象并不出奇,在类药物分子与非类药物的比例降低时(即两类问题难度接近),假阳性的增长速度远远快于假阴性的情况更为常见。显然,在不同数据比例下基于不同划分标准构建的分类器无法直接进行性能比较分析。因此难以确定最佳的比例设置。为此,在后续讨论中我们采用了基于140,000个分子样本构建的平衡数据集上的贝叶斯分类器作为基准模型进行比较研究。
3. 药物相似的重要片段分析
基于贝叶斯分类器的方法对每个指纹的关键重要性进行了贝叶斯分数排序

根据贝叶斯分数进行排序的前30个优质片段和30个劣质片段如图7所示。图7a展示了这些关键指纹揭示了分子如何变得更加符合药物特性的线索。

我们对训练集中MDDR分子中片段前10的药理活性进行了深入分析(图8),值得观察的是,在具有相同片段或亚结构的分子中通常会呈现出与MDDR相似的药理活性。具体而言,在大多数情况下:
- 片段1表现出支气管扩张类药物的作用,
- 片段2表现出抗炎药物和抗癌药物的作用,
- 片段3、7和8表现出降血压药物的作用,
- 片段4表现出用于治疗心绞痛的心律失常调节药物的作用,
- 片段5、6、9至10则主要表现为碳青霉烯抗生素的作用。
例如,在前两个片段中的20个分子如图9所示。
基于我们的观察结果:
我们得出以下结论:贝叶斯分类器识别出一些关键亚结构分子可能具有相似或相同的药理活性;即重要的分子片段可作为结构特征推断研究分子的药理作用。
图8:

图9:

最初的10个影响药物相似度的指纹特征如图7b所示。要理解这些不利子结构的原因并不容易;一个可能的原因是它们包含一种典型的反应官能团:一种典型的反应官能团参与了体外假阳性的发生过程。
4.分子分类错误的分析
基于最佳贝叶斯分类器的方法,在预测试验中对类药物MDDR分子进行了分析,在该类别中的真实活性物质样本(即类药物MDDR分子)共有1,814例被正确识别;与此同时,在该类别中的误判为活性物质的非活性物质样本(即非类药物ACD分子)共有1,883例被错误归类

如图10a所示,在基于贝叶斯分析的方法下,MDDR中前20位非药物样分子确实存在明显的不良片段特征。例如,在图7b中可观察到分子1、2以及3均包含片段5这一共同特征。值得注意的是,在图10a中发现的含有芴基团的分子7、8、10、14与我们之前研究报道的结果完全一致。此外,在进一步分析中我们发现这些分子至少违反了Lipinski五法则中的两项规定:一方面它们存在较大的体积(MW>500道尔顿),另一方面它们的氢键接受能力较强(H-bond donors≥6)。随后我们对MDDR中排名前20位的非药物样分子进行了发展情况调查:其中大部分(共18个)已进入生物测定阶段(BFS),仅有少数(共2个)仍停留在前期研究阶段(PET)。这些预测结果表明MDDR中的非药物样分子很可能处于药物开发的关键初期阶段
同样地,在贝叶斯评分的基础上分析后发现,在测试数据集中排名前20的ACD类化合物(如图10b所示)。这些假阳性病例可能具有良好的药物相似性片段。例如,在分子集合中编号为1, 2, 3, 13, 14, 15和19的化合物均包含片段29(如图7a所示)。目前尚未完全构建不含药物类化合物的数据库。尽管ACD系统常被用于构建非药物类化合物的数据集,但在高通量筛选实验中也有部分ACD化合物被用于作为研究材料。因此,在系统内部检测到大量与真实药物相关的化合物也是合理的。接着,在对MDDR中的7万多个真实药物进行比较分析后发现:这导致在MDDR中发现了846个与之结构类似的潜在候选物质
5.TCMCD是类药物还是非类药物
如同所述,在经过精心设计和优化后,我们成功构建了一个基于140,000个分子的大规模平衡训练集的贝叶斯分类器模型。随后,利用该贝叶斯分类器模型对TCMCD集合中的各个分子进行药物相似性评估。值得注意的是,在对原始TCMCD数据进行筛选后,我们获得了包含33961个(其中分子量均小于600)的有效子集。通过系统分析与精确计算,在研究对象中鉴定出28574个潜在类药物分子与28574个非类药物分子。具体而言,在TCMCD亚群中发现有28574份样本数据被归类为类药物化合物(占总样本数约59.37%),而其余28574份则被归为非类化合物。进一步分析表明,在所有纳入分析的数据集中有约67.61%的比例被判定为具有显著的药物相似特性。这一发现表明,在当前研究条件下将所有TCMCD中的化合物纳入后续分析将显著提高预测效率与准确性。正如纽曼及其同事所指出的,“一半的新化学实体(NCEs)FDA批准来源于天然产物或天然产物的重要组成部分”,这一现象在本研究中得到了进一步证实:即在当前研究范围内TCMCD集合中的绝大多数化合物均具有高度代表性的潜在药理活性特征
为了探讨TCMCD中关键分子指纹分布特征, 我们研究了TCMCD中的前50个片段分子. 图12展示了TCMCD中的20个代表分子, 这些分子显示出前50位对药物相似性有重要影响的特征指紋.

此外也对这些指纹图谱的主要药效活性进行了详细分析(如图12所示)。通过深入分析以及广泛的文献检索发现,在这一系列化合物中存在多个与现有研究报道一致的现象。其中:分子2具有保护作用;分子3展现出强心剂及抗惊厥的作用;分子7表现出显著的抗菌与抗生素活性;化合物8则显示出抗炎效果的同时还伴随血管舒张现象,并且能够抑制磷酸二酯酶(PDE)III及IV的功能。值得注意的是,在后续的研究中我们还发现了另一组新型化合物(编号为9至15),它们均具备抗炎特性并且展现出显著的降压效果。在此基础上我们进一步筛选出了一组潜在的新药候选物(编号为16至25),这些化合物不仅在体外实验中表现出优异性能,在体内动物模型实验中也获得了积极反馈结果。(如图7b所示)
已有研究表明,在酶或细胞水平上对TCMCD类药物进行系统性药理学研究仍有待进一步探索。
针对大多数TCMCD类药物分子而言,其药效机制仍存在较大的认识不足。
通过结合重要指纹图谱对其潜在药效成分进行系统性分析的方法有望成为揭示其药效机理的重要手段。
本研究致力于为医药学家和计算化学家提供加速中药开发所需的关键思路与方法参考。
总结
基于与MDDR和ACD子集具有分子量分布相似性的药物集合,本研究通过采用朴素贝叶斯分类技术和递归划分方法构建药物相似性预测模型。首先系统评估了分子特性和不同指纹图谱对预测性能的影响结果表明通过引入分子指纹图谱特征显著提升了模型的预测效果。随后我们探讨了各种构造贝叶斯分类器的方法发现调节非药物质子在训练样本中的比例以及训练集大小能够有效优化分类器性能其中最为显著的效果来源于将平衡训练集的比例设置为21:1并在此基础上结合LCFP_6指纹特征构建优化后的模型最终在测试集上实现了91.4%的准确率
另外一方面而言,在运用贝叶斯分析方法的基础上筛选出影响药物相似性最显著的关键分子片段。这些关键片段不仅能够明确区分不同类别的化合物在功能上的差异,在药物的设计与发现初期阶段构建高质量的前驱体化合物方面也具有重要价值。随后通过应用最优贝叶斯分类器系统地评估了TCMCD体系中化合物间的相似性,在此观察下我们发现绝大多数分子均属于类药物性质的一类物质。基于此观察结果我们可以认为TCMCD体系中的大多数分子都具有良好的药效学特性并展现出较高的临床潜力因此我们认为TCMCD体系中的大量分子都可能成为中医药领域新药开发的重要候选物质
