人工智能(AI)和机器学习(ML)模型有助于逆合成路线设计,但其受到可用训练数据的限制。 阅读本文,了解如何确保数据具有必要的多样性以及质量来优化关键合成方案,从而生成新颖的预测合成路线。
现有药物分子的革新是药物发现的创新基石。 然而,当我们展望未来时,结构新颖的小分子有可能被证明在疗效上,比革新现有药物更具价值。 2020 年获批的小分子药物中有 65% 具有新型结构,与其他分子相比,这些分子被 FDA 指定为突破性疗法的可能性提高了 2.5 倍,在上市后 5 年内成为畅销药的可能性提高了 2 倍。
然而,合成新分子并非易事。 逆合成预测工具在新方法的设计和生产效率的优化中起着至关重要的作用。 逆合成预测工具在新方法的设计和生产效率的优化中起着至关重要的作用。 通过在构建分子时限制特定条件,如价格或供应商,还可以实现节约整个开发管线的成本。
AI在化学合成中的成功应用受到数据质量和多样性的限制,其不足阻碍了预测的准确性。 这在我们最近的合作中得到了证明,拜耳公司正寻求用于新小分子逆合成方案的AI优化策略。 通过我们提供的高质量、多样性的反应数据来丰富现有的训练集,能够帮助拜耳把对罕见反应类型预测的准确性提高 32 %。
科学家标引的多样化数据推动了AI模型的成功
化学合成设计的目的是得到一组尽可能多样化和精确的合成路线。 然而,只有底层数据质量足够好,AI应用程序才能成功。 预测能力取决于训练数据的质量、多样性和准确性。 一个关键的挑战是数据的多样性,如果训练数据未能包含较少人涉足的化学领域,而只包含常见化学数据,那么AI应用程序在预测领域和新颖性方面的效果将无法达到预期。
CAS Reactions数据集提供了范围广泛的多样化反应数据,对合成设计的预测能力有显著影响。 CAS Reactions的数据量在过去十年中翻了一倍多。CAS(美国化学文摘社)的科学家从全球公开的专利、期刊和科学出版物中标引最全和最详细的化学信息。 CAS科学家的标引工作继续前行,并持续与机器学习协作,以增强AI合成设计的能力和丰富性。
拜耳公司与CAS合作优化AI,提高药物发现的效率
在与拜耳公司的合作中,CAS提供的罕见反应类型数据,丰富了机器学习训练数据集,显著增强了药物发现AI模型的预测能力。
该模型包括一个由神经网络(用于评估预测的反应步骤是否可能成功)组成的可行性过滤器。 使用一组已知反应数据集和一组主要从理论上视为失败反应的数据集训练神经网络。 我们还使用 CAS 数据创建了一个额外的训练数据集,以量化可行性筛选器的预测能力。 CAS反应数据的加入将罕见反应类型的预测准确率从16%提高到了48%,大幅提高了32个百分点。
可行性过滤器精确度的提高在研发管线中具有倍增效应,提高了可用反应的比例。 这种增强的预测能力打开了之前的模型无法预测的“罕见” 类别的大门,并贡献了新的分子,照亮了小分子药物发现的前进道路。
这项研究表明,即使是来自 CAS 内容合集TM 的一个中等规模的科学家收录反应集,也可以显著提高合成规划工具的预测能力。 这种影响在小规模反应中被观察到。这表明,随着基础训练数据集的进一步扩充,在所有模板中都使用强大、高质量和多样化的数据,我们就会观察到更强大的预测能力。 这个令人印象深刻的概念证明有着广泛的应用,最著名的是更高效地发现新的小分子靶向药物。
- 查看 CAS 的 Yugal Sharma 博士和拜耳公司的 Martin Villalba 博士最近在皮斯托亚联盟虚拟会议上发表的演讲
- 下载白皮书:预测新化学:高质量训练数据对反应结果预测的影响
CAS 可以优化您的结果
CAS 定制服务SM 可设计训练数据集,为您的机器学习工作提供助力。 联系我们的团队,共同探讨您的需求,帮助您提高预测准确性。