尽管许多机器学习计划的投资不断增加,但却因数据集多样性有限而失败。特别是在某些很少有人涉足的化学领域,其预测的准确性和多样性通常会降低。 通过比较不同的数据集对训练模型的影响,我们可以对合成路线模型的预期覆盖范围和新颖性做出更有力的判断,并设计数据集以探索先前很难进行研究的科学领域。
在这项研究中,拜耳公司的科学家利用美国化学文摘社 (CAS) 人工标引的数据集来提高他们对合成路线模型的预测能力。 对罕见反应类型的预测准确率显著提高了 32%。这一能力的提升将带来对化学全新的认识。
获取 CAS 洞察报告或联系我们的客户服务团队,设计数据集,以帮助开拓难以攻克的科学领域。
这份 CAS 洞察报告由美国化学文摘社 (CAS) 与拜耳公司的科学家共同推出。
作者:
- Miriam Wollenhaupt 博士, 拜耳公司计算化学家
- Martín Villalba 博士, 拜耳公司应用数学专家
- Orr Ravitz 博士, CAS 合成路线设计解决方案