由于精细的算法可以提高准确性,人们访问各种数据集也变得更加容易,技术计算能力有所提升,机器学习 (ML) 技术在药物发现领域也从理论上可行转变为实际应用。 最近,麻省理工学院的研究人员成功地利用 ML 发现了一种能有效杀死耐抗生素细菌的新化合物。 由于抗生素创新方面的结构多样性比较有限,考虑到这些药物能够靶向的机制很少,ML 能够识别具有活性的非预期类药性候选药物是一种巨大的进步。
尽管振奋人心,但这样的成果依然寥寥无几。 然而,更常见的情况是,ML 使研究人员能够筛选大量潜在的治疗性化合物,以确定那些预计与重要靶点有关的最有效化合物。 通过计算机模拟确定合成和测试用候选药物的优先顺序缩小了已制备或已购买的分子库,显著降低了药物发现团队的行动成本。
然而,只有当我们能够依靠算法持续提供准确的生物活性预测时,才能大规模实现上述好处以及我们对于 ML 在药物发现领域的更高期望。 我们依靠什么来增强 ML 方法,从而提高这些预测的准确性和可靠性? 最近发表在 Journal of Chemical Information and Modeling(《化学信息与建模杂志 》)上的一项使用了 CAS 物质数据的研究提供了一个令人吃惊的答案——人类化学家。
请阅读期刊文章 Impact of Chemist-In-The-Loop Molecular Representations on Machine Learning Outcome(《化学家在环分子表征对机器学习成果的影响》)全文,查阅数据,了解化学家收录的分子指纹如何影响预测准确性。
数据、描述符和算法:推动预测成功的三要素
算法通常被认为是 ML 中最重要的组成部分,显然,它们至关重要。 Extensive energy 致力于建立、测试和优化算法,为每一种重要的情形建模。 但是,我认为数据质量仍然是构建可靠的 ML 模型中最重要的因素。 当受到可用性、收录或多样性的限制,现有的数据无法准确地反映算法应考虑到的所有可能性时,即使算法再精细也无济于事。 为推进潜在候选药物的评估算法,拥有一套完整、清晰的结构、生物和物理性质至关重要。 CAS REGISTRY®(物质数据库)目前涵盖超过 1.66 亿小分子的数据,这些数据由科学家从 100 多年来发表的科学文献和专利中整理收录,为此类工作打下了良好的数据基础。
然而,预测化学中还有一个长期被忽视的重要组成要素,即分子描述符,该要素最近得到了越来越多的关注。 分子描述符也被称为分子指纹,顾名思义,指描述每个化学分子中对于算法至关重要的特征。 候选分子拥有数千个潜在特征,其中包括原子数量、原子类型和键结构等。 但是,与预测结果最相关的特征取决于算法的目标。 尽管如此,目前的大多数 ML 工作都依赖于一组通用的分子描述符。某些最流行的描述符(包含在扩展连通性指纹中)基于 Morgan 算法,该算法由 Harry Morgan 于 20 世纪 60 年代早期在 CAS 开发。虽然这是一个很好的起点,但我们的研究表明,CAS 最近开发的一种增强指纹包含了经我们化学家团队选择的逾 25000 种结构特征,可以不断提高生物活性预测的准确性。
让化学家为您定制更适合您的预测
我们最近发表的研究侧重于对使用通用描述符完成的生物活性预测与使用这些新描述符完成的生物活性预测进行准确性对比。这些新描述符的开发利用了 CAS 化学家的专业知识,丰富了适用于许多 ML 应用的其他特征。 方便起见,我们将这些化学家收录的描述符简称为 CAS 指纹。 研究结果表明,当我们用 CAS 指纹针对 88 个不同靶向的大型基准集预测生物活性时,其表现优于常用的分子描述符,如 ECFP (Morgan)、Avalon、原子对和拓扑扭转指纹。 根据 ROC-AUC 和 PRC-AUC, CAS 专有指纹在随机森林 ML 模型中平均排名最高。
初步测试表明,当化学家进一步为单个算法应用定制这些广泛适用的 CAS 增强指纹特征时,可以获得额外的准确性增益。 我们通过为重要靶点选择信息最丰富的特征来创建这些定制指纹。 各种降维技术,如主成分分析,可以进一步提高预测模型的准确性、稳定性和可扩展性。 特征重要性分析还可用于进一步了解与生物活性最相关的元素,创造一个良性的优化环路。
虽然最初的准确性增益和可能性进展令人兴奋,但这项工作最有趣的发现是 CAS 指纹影响了预测结果的多样性。 这突出了它们对创新产生积极影响的潜力。 使用 CAS 指纹发现的活性结构与使用一般通用分子描述符建立的模型预测的结构通常有很大的不同。 下面的图 1 显示,CAS 指纹与其他测试模型的相关性很低。 因此,CAS 指纹采集的正交化学信号提供了其他常用分子描述符无法提供的独特见解。
https://pubs.acs.org/doi/full/10.1021/acs.jcim.0c00193)" data-entity-type="file" data-entity-uuid="ef1380cd-994a-4c43-8fff-8c75895588f2" src="/sites/default/files/inline-images/test%20cas_correlation%5B1%5D.png" />
增强分子描述符的广泛应用
定制的分子描述符可应用于其他场合,比如纳入扩展的、支持 ML 的研发工作流程中。 例如,由于结构创新药物获得 FDA 突破性疗法认定地位的可能性是其他药物的两倍,在发现的早期阶段,人们非常希望能够识别一组结构多样的化合物,它们具有相似的活性,但包含不同的核心结构(即骨架迁跃)。 骨架迁跃潜力被视为 ML 方法的一项重要能力。 然而,对结构各异的分子进行检索的潜力因指纹而异。 初步分析表明,CAS 指纹比其他常用指纹具有更好的骨架迁跃潜力。如要发现全新的候选类别或准确评估结构多样的候选库的活性,这个因素非常重要。
上述 ML 支持的筛选方法还可用于主动筛选进入内部和外部数据集(包括 CAS REGISTRY 物质数据库)的所有新化合物,以了解一家组织优先靶向的组合的潜在活性。 这种方法将这些靶向 ML 模型纳入流程中,为流程源源不断地输送有效候选药物。 此类应用案例不仅限于药物输送。 本文所讨论的方法依靠 ML 来识别和筛选候选化合物以及确定化合物的优先顺序,此类方法也可用于其他化学应用方面,如新型农药的开发。
您对增强或定制分子描述符在药物发现领域的其他有效应用上或这些描述符的其他化学应用上有什么看法? 请在下方评论区分享您的看法或联系我们的客户服务团队。