人工智能在天然产物药物发现中的新兴角色

Krittika Ralhan , Scientist, ACS International India Pvt. Ltd.

genetic engineering and dna microarray

天然产物是指由植物、动物、微生物和自然界其他成员产生的化合物、物质或混合物。 千百年来,人们一直在利用天然产物治疗各种疾病,而在现代医学出现之前,天然产物是人类唯一的药物。

据世界卫生组织 (WHO) 估计,当今世界约有 80% 的人口使用传统医药。 在过去 50 年内,天然产物及其衍生物仍然是新的来源,但由于其生物利用度不足且化学合成复杂,这些产物的大规模使用面临重大挑战。

随着先进的计算技术、更好的数据存储设备、复杂的自然语言处理技术和基于机器学习 (ML) 的能力的出现,如今研究人员拥有了强大的新工具,可以将其用于研究天然产物。 人工智能 (AI) 使新的进步成为可能,而医学科学也有机会继续利用大自然的精华来治疗人类疾病。

人工智能驱动研究的最新进展

我们研究了人工收录的最大已发表科学信息合集 CAS 内容合集TM 的数据,以了解人工智能在天然产物领域的最新出版物布局(2010 年以后)。 通过鸟瞰全球科学出版物,我们发现人工智能最近在结构预测、数据整合等领域取得了重大进展,并与天然产物一起加速药物发现。

我们的分析发现,自 2010 年以来,与天然产物研究相关的科学出版物(包括期刊文章和专利出版物)超过 60 万篇。 期刊出版物在这一领域占据主导地位,专利与期刊的比例在过去几年有所下降,这表明学术研究比商业产品更受关注。 人工智能如何融入这项研究? 在天然产物研究的各个领域,我们注意到人工智能、机器学习算法和基于神经网络的研究都在产生影响:

图 1 期刊专利图
图 1:2010-2022 年天然产物研究领域每年发表的期刊和专利论文数量(分别显示为蓝色和黄色柱状图)。

 

  • 化合物/目标识别:在机器学习算法的支持下,人工智能可以分析光谱数据,以识别和表征天然产物中的化合物。 这就加快了识别和分离生物活性分子的过程。 例如,Nucleic Acids Research 上发表的一篇引用率极高的文章介绍了一个网络服务器 NRPSpredictor2,该服务器利用机器学习方法改进了细菌中天然产物生物合成酶的底物特异性预测。 植物和微生物利用被称为生物合成基因簇 (BGC) 的基因产生作为次级代谢物的天然产物。 人工智能正被用于预测可能编码这类代谢物的 BCG。
  • 药物发现:人工智能及其子领域(如机器学习)正被应用于药物发现研发管线的不同阶段。 例如,人工智能模型可用于虚拟筛选天然产物数据库、预测潜在候选药物并评估其药理特性。 深度神经网络 (DNN) 是这类工作的关键,基于人工智能的生成模型可以预测候选药物,并通过缩小需要进行实验验证的化合物数量来加速药物发现研发管线。
  • 生物活性预测:机器学习模型可以利用基于深度神经网络的 3D 药效团匹配方法(称为定量结构-活性/性质关系 (QSA/PR) 模型),根据化学结构预测天然产物的生物活性并对其进行排序。 这些模型有助于识别具有特定治疗潜力的化合物。 在最近一项研究中,人们采用基于机器学习的方法针对鲍曼不动杆菌的抗生素进行计算机预测,最终发现了对鲍曼不动杆菌具有杀菌活性的 Abaucin。 在另一项研究中,一种基于人工智能的方法利用细菌、天然产物训练数据集帮助发现了 Halicin 的抗生素作用。
  • 优化提取工艺:人工智能可帮助优化萃取参数,从天然资源中获得最高产量的生物活性化合物。 这就减少了测试候选药物所需的时间和资源。
  • 数据整合与分析:人工智能有助于整合和分析来自基因组学、蛋白质组学和代谢组学研究的大量数据。 这种整体方法可以更好地理解自然系统内部复杂的相互作用。
  • 预测协同作用:人工智能工具可以预测不同化合物之间的协同作用,指导研究人员利用天然产物制定组合疗法。 这对于治疗疑难杂症尤为重要。
  • 毒性预测:人工智能模型可以预测天然化合物的潜在毒性,确保这类产品在药品或保健品开发前期的安全性
图 2 数据集成分析
图 2:人工智能和机器学习在天然产物研究中的应用示意图。

近年来,人们对人工智能和天然产物研究的兴趣迅速增长,发表了 650 篇期刊和专利出版物,专利与期刊的比例也相应增加,这表明人们对人工智能和天然产物研究的商业兴趣日益浓厚。 虽然出版物的数量相对较少,但从 2010 年到 2022 年稳步上升,尤其是自 2020 年开始有了明显增长(图 3)。 我们发现,中国在出版物布局方面占据主导地位,其次是美国和印度,这与中国传统医学普遍使用天然产物以及旨在发展中国人工智能相关能力的《中国新一代人工智能发展规划(2015-2030 年)》的出台息息相关。

全世界对这一主题的兴趣也与日俱增。我们注意到巴西、韩国、德国、英国、葡萄牙、波兰等国均有机构在发表相关文章。 当前开展研究的药物发现工作也涵盖了一系列可能性。

人工智能在药物发现中的机遇

人工智能可以在天然产物的鉴定、分类和活性预测方面发挥作用。 植物是各种生物活性次级代谢产物(如生物碱和类黄酮)的已知来源,具有抗病毒、抗癌、抗菌和抗真菌等特性。 人工智能驱动的程序和技术能够以更快的速度审查和分析天然产物的这类特性,并高效吸收数据,从而预测生物活性,加快药物发现过程。

例如,不同种类的真菌(蘑菇)都具有抗癌免疫调节抗神经退行性病变抗炎抗氧化特性。 人工智能和基于机器学习的算法可用于对新型蘑菇物种进行分类,并利用基于图像的识别技术对其天然产物进行鉴定,制定从真菌中提取天然产物的优化策略,以及绘制不同蘑菇或其他真菌物种的新用途和特性图(图 5)。

图 3 期刊出版物数量
图 3:2010-2022 年天然产物研究人工智能领域每年发表的期刊和专利出版物数量(分别显示为蓝色和黄色柱状图)。 插图表示过去五年(2018-2022 年)该领域专利与期刊比的增长情况。

人工智能和天然产物的现状

目前,人工智能在天然产物中最常见的应用是抗肿瘤剂(图 4A),其次是抗病毒剂和抗菌剂。 镇痛药(止痛药)在主要应用总量中只占很小比例 (2%),但在 2021-2022 年期间,文件数量增长了 5 倍(图 4B)。 其他快速增长的应用类别包括抗炎剂、抗糖尿剂、抗神经退化药和抗疟药。 有趣的是,从 2021 年到 2022 年,与抗菌剂有关的文件比例有所下降,表明科学界对这一领域的兴趣有所减弱。

图 4A 和图 4B
图 4:A.圆环图显示了人工智能在天然产物研究中的主要应用情况。 B 2010-2022 年人工智能在最常用应用方面的增长。
图 5 主要植物属
图 5:与天然产物研究中人工智能应用有关的 (A) 植物和 (B) 真菌的主要属。

我们利用 CAS 内容合集进行了物质数据分析,发现在 2010-2022 年的期刊和专利出版物中,天然产物研究中与人工智能同时出现的物质约有 5,000 种(图 6A)。 对物质类别的进一步调查表明,有机和无机小分子、蛋白质/肽序列、聚合物、元素和盐类是最重要的物质。 被归类为有机/无机小分子的物质数量几乎是下一个类别蛋白质/肽序列和元素数量的近 60 倍。

在有机/无机小分子中,槲皮素与人工智能使用的共现率最高。 槲皮素是一种生物活性植物黄烷醇,具有强大的抗氧化和抗炎特性。 该物质具有治疗癌症艾滋病高血压糖尿病的潜力。 最近,槲皮素与山奈酚(与人工智能使用共现率较高的另一种小分子)一起,对 COVID-19 病毒展现出积极作用。 人们目前正在将人工智能用于设计模型,以帮助优化从植物中提取槲皮素、设计新型槲皮素类似物,以及创建模型以测试其抗氧化抗癌效果。

仔细观察蛋白质/肽序列后,我们发现万古霉素与人工智能的共现率最高,尤其是在设计涉及剂量滴定的研究以找到最佳剂量水平时。 同样,机器学习方法也被用于肾移植模型中环孢素浓度的建模。 在聚合物类别中,壳聚糖与人工智能的共现率最高,这与强调利用人工智能对壳聚糖纳米颗粒在抗微生物应用方面的合成和测试研究相关。

图 6 相关物质的分布
图 6:(A) 2010-2022 年天然产物研究中与人工智能有关的物质分布情况(来自 CAS 内容合集)。 相应的热力图列出了这些类别中共现的前 10 种物质。 (B) 人工智能选定物质(在 A 组中以红色星号标出)在过去几年(2010 年以后)的增长情况

未来展望与机遇

过去十年,人工智能在药物发现领域的应用具有革命性的意义,天然产物领域也不例外。 人工智能从仅用于天然产物信息的数字化,发展到基于机器学习算法提供生物活性预测,再到最近的研究中,科学家们利用神经网络进行基因组挖掘和设计受天然产物启发的分子。 人工智能的其他分支,如 BioNLP(基于包含广泛医学表征的算法),甚至可用于从科学出版物中提取信息,以确定更新的生物活性植物或天然产物来源。

尽管人工智能带来了天然产物研究范式的转变,但某些挑战依然存在。 重复性便是其中一项挑战,即重复发现相同的化合物或分子。 利用先进的人工智能数据库和工具可以缓解这一问题。 天然产物面临的另一个挑战是,人们往往是在没有已知蛋白质靶点的情况下发现这类物质。 在这种情况下,人工智能可以帮助预测其靶点。

将人工智能融入天然产物的研究工作仍处于起步阶段,重要的是要对预测模型进行充分训练,以识别和分类新型天然产物。 随着这项研究的不断深入,出版趋势表明,人工智能将在天然产物研究的各个阶段变得更加广泛。 从天然资源中发现新型药物分子的机会将继续增加,使制药研发管线最终到患者群体均从中受益。 进一步了解我们最近在巴西扩展 NuBBE 数据库的工作,以及更好的数据对改进人工智能预测有何影响。