尽管每年合成的新化合物的数量越来越多,但人们越来越担心对小分子发现的创新可能会停滞不前。 但是,CAS 科学家于 2019 年 10 月在《有机化学杂志》(Journal of Organic Chemistry) 上发表的最新研究表明,从结构的视角来看,小分子创新的步伐实际上正在加速,并为化学家提供了深入见解,有助于在大量未曾开发的广阔化学空间内寻找富有成果的新领域,从而推动进一步研究。
我们的分析表明,随着时间变化,大量有机化合物的框架或骨架多样性都发生了变化。 这些发现对未来的化学领域探索具有实际意义,并支持对小分子发现的传统及新兴方法进行更多投入。 随着各类组织越来越追求最有效且高效的创新投资,这些发现有助于为各个行业未来的小分子发现策略提供信息。
利用收录数据的力量
对于分子量小于 500 Da 和 1000 Da 的分子,潜在可合成的稳定有机分子的数量预计分别为 1063 和 10180。 由于可能合成的化合物如此之多,化学家将只能对多样化的化学空间结构中的极小一部分进行采样。 这就产生了一个问题,即他们是否可以做到高效且有效。 在药物研发中,这是一个特别令人关注的问题,因为创新对人类的潜在影响很大,但成本控制日益受到关注,这要求研究人员寻求更有效的方法来探索结构多样的化合物。
在寻找新化合物时,若要确定探索化学空间的程度,可采用的一种方法是:分析已知物质的多样性,并观测随时间变化的趋势。 从概念上讲,化学框架是理解分子共同特征的简单方法,因此 CAS利用框架或骨架(即化合物的所有环系及连接它们的所有连接片段)来评估已知物质的多样性。 可以将每个骨架视为由相似分子组成的广阔化学空间中的一个区域,共享特定框架的已知化合物数量表明了对该区域的探索程度。
CAS REGISTRYSM 物质数据库收录超过1.5亿种化学物质,由CAS科学家从 150 多年来发表的期刊文章、专利和其他广泛来源中持续收录而成。 如此庞大且始终如一的物质数据的独特性为我们进行较长时间段的详细对比分析提供了条件。 在这项研究中,我们分析了 3 千万种有机化合物的子集,这些子集具有可用的框架数据及明确的披露日期,可识别过去十年中发生的结构多样性变化。 对该数据集的广泛分析使我们能够确定最常用的骨架、类型、多样性及其分布情况。
揭示了什么,它为何重要?
这项研究基于我们先前发布的框架分析,该分析提供了 CAS REGISTRY 的概览。 自第一项研究发表以来,已有十余年,因此我们能够比较这10多年来的数据。
关键的发现是,在 2008 年至 2018 年这 10 年期间,CAS REGISTRY 中图表/节点级别的新骨架数量几乎翻了一番。 这不仅说明了具有高度创新性,而且表明科学家越来越多地涉足未开发的化学空间区域。 图 1 显示了从 1949 年以前到 2018 年期间每10年中按首次报告年份分类的骨架数量。 能够如此清晰地确认创新不断加速,新的骨架数量不断增加,实现了几乎每 10 年翻一番,这非常鼓舞人心。
该研究还强调,化学空间的探索沿着两个轨道进行:重新使用先前使用的骨架(发现某些结构与先前相似的分子)和创建新的骨架(产生具有新结构的分子)。 这是一种合理且有效的策略,常用于药物研发。
同样明确的是,骨架的多样性已增加,因为增加了许多新的骨架,远远抵消了相对少量的现有骨架大量重复使用的问题。 大多数新骨架均基于相对新的拓扑形状,而非具有新骨架的旧形状。 这表明科学家们正在突破已知化学空间的边界。
立即阅读《有机化学杂志》(Journal of Organic Chemistry) 上开放获取的论文《从 CAS Registry 中可以看出有机化学骨架多样性的最新变化》(Recent Changes in the Scaffold Diversity of Organic Chemistry As Seen in the CAS Registry) 以查看完整的方法、数据和结果讨论。
规划未来的探索
这些发现为科学家提供了证据,证明了迄今为止的进展以及小分子化学领域仍然存在诸多创新机会。 此外,这些发现也强调了进一步突破界限的重要性。 也就是说,弄清楚待探索的化学空间领域仍然是确保有效创新的关键。 知晓哪些领域已得到广泛探索或探索不足,可以引导科学家了解整体格局,并通过识别迄今为止研究有限但前景广阔的领域来提高成功的几率。 在结构层面上更清晰地了解当前的创新格局,提供新的努力方向,并利用高级数据分析和机器学习来加速创新,并通过利用已知化学空间识别绘制未知空白空间。
想要讨论如何定制此方法,从而为您的化学空间探索策略提供信息吗? 联系我们