探索化学领域机器学习:趋势和机遇

Zach Baum , Information Scientist, CAS

machine learning hero image

在过去的 20 年里,人工智能 (AI) 的进步(特别是机器学习)已经改变了我们进行科学研究的方式。 从绘制基因组序列图谱和发现新抗生素,到模拟气候变化对地球的影响,甚至在寻找其他类地行星的过程中绘制银河系地图,人工智能正在改变众多学科的研究方式。

化学是在人工智能应用方面取得巨大飞跃的科学领域之一。 CAS(美国化学文摘社)最近发布了白皮书《化学中的人工智能:现状和未来机遇》在该白皮书中,我们利用 CAS 的独有技术提供文献和专利全景,探索了人工智能和化学之间的关联。 在该白皮书中,我们利用 CAS 的独有技术提供文献和专利全景,探索了人工智能和化学之间的关联。

人工智能促进了哪些化学领域的发展?

涉及人工智能的化学出版物和专利数量呈爆炸式增长,从 2015 年到 2020 年期间增长了 6 倍。 我们已经确定了对人工智能相关出版物和专利做出贡献的主要学科,并对它们进行了比较,以了解哪些领域正在利用这一新兴技术。 应用人工智能的领先学科包括分析化学、生物化学、工业化学和化学工程,而有机会应用人工智能的领域则包括天然产物和有机化学(图 1)。

显示应用了机器学习的化学分支学科的图片(有多张图表)
图 1:各学科中人工智能相关出版物所占最高比例

我们研究了 2000 年至 2020 年之间的出版物和专利之间的关联,来了解人工智能是如何帮助研究人员解决问题的(图 2)。 例如,从 21 世纪初到 2014 年,人工智能出版物和专利的重点从研究人类疾病的诊断转向了遗传算法以及将这些算法应用于药物发现和 microRNA。

最近,随着需要解决的问题类型发生了变化,出版物和专利更多地转向了 DNA 甲基化和癌症。 最新的重点则转向了与 COVID-19 相关的药物发现。

显示 2000 年到 2020 年 AI 相关化学期刊出版物中同期概念演变的时间线
图 2:2000-2020 年人工智能相关化学期刊出版物中共现概念的演变

不出所料的是,我们的研究还发现小分子是人工智能出版物和专利分析的最大焦点。 这些焦点主题包括药物发现、逆合成和反应优化,反映出了制药公司通常投资较多的领域。

在化学领域中应用机器学习技术的机遇在哪里?

在我们对 7 万多份出版物的分析中,我们研究了跨学科的贡献,标注了主要和次要学科(图 3)。 这让我们能够将每个学科的贡献绘制到一张热图上,在热图上,颜色的强度反映了每个学科的贡献强度。 我们可以一目了然地看到应用人工智能的领先化学研究领域以及具有潜力但尚未应用人工智能的领域。

显示一级学科和二级学科研究中 AI 应用程度的热度图
图 3:期刊文章中发表的跨学科研究的相关性(列代表主要研究领域,行代表次要研究领域,每个正方形代表主要和次要研究领域的跨学科交叉领域)

例如,多学科出版物在分析化学和生物化学中更为常见,机器学习算法被用于改进对蛋白质、多肽、脂类和核酸的分析,以及预测化学反应甚至发现新分子。 人工智能也被广泛应用于材料科学和物理化学,来预测功能材料、结构-性能关系和化学工艺优化。

在化学领域中应用人工智能的障碍

在我们的网络研讨会“化学中的人工智能:当前趋势和未来机遇”上,专家们讨论了应用人工智能的潜在障碍。 他们指出了在化学领域采用人工智能的三个主要障碍:

数据质量:最优的预测,依赖于为训练预测模型提供正例和反例的稳定的、高质量的数据集。 对众多机构而言,如何获得数据、标准化数据和准备数据是重大挑战。

技术:虽然算力(基于量子和云的方法)正在改进,但从用户的角度来看,仍然存在局限性。 然而,当今软件和用户界面的进步消除了编程的要求,使更多的科学家在他们的研究中能够利用机器学习。

人才短缺:数据科学的人才短缺是有目共睹的,化学家们可能不明白今天的人工智能是多么容易利用。 加强化学和其他科学学科之间的合作可能有助于加速人工智能与其他领域的整合。

机器学习在化学领域的发展机会

人工智能和训练数据集正被世界各地的科学机构用于解决问题和创新,为数据分析和药物发现提供了重要机会。

我们最近的白皮书揭示了可从 AI 技术投资中受益的几个化学领域。 如今,克服 AI 应用所面临的阻碍已变得前所未有的简单,CAS 等合作伙伴可以帮助获取大型优质数据集以进行分析。 通过在科学研究中应用 AI,可以帮助解决一些极其紧迫的问题,并在传统数据分析方面取得巨大进展。

如果您对 AI 技术如何为研究提供支持有任何疑问,请阅读我们的白皮书以详细了解我们的分析和见解,或者联系 CAS。