使用计算方法寻找治疗COVID-19的候选药物

Julian Ivanov , Senior Data Analyst, CAS

自世界卫生组织宣布COVID-19成为全球大流行以来,研究人员对SARS-CoV-2(引起COVID-19的新型冠状病毒)进行了大量研究。 然而,尽管人们付出了巨大努力和巨额资金,但仍未发现治疗 COVID-19患者的有效疗法。 虽然全球已经有多款候选疫苗进入临床试验阶段,但即使证明它们安全有效,也需要数月甚至数年时间才能生产和分发足够的疫苗供全球接种。 因此,目前迫切需要找到有效的抗病毒疗法,在疫情受控之前减轻病毒的影响,以免更多人被感染。

为满足这一迫切需求,科学家们一直在探索各种方法来加快药物开发进程,包括使用计算方法来找到已经批准用于其他适应症且可能对治疗COVID-19有效的药物。 美国化学文摘社(CAS)的科学家和技术专家团队借助定量构效关系(QSAR)方法、针对SARS-CoV-2的重要蛋白靶点的机器学习模型,希望找到可能用于治疗COVID-19 的候选药物。 CAS的科学家和技术专家通过这项工作成功找到了一些开始显现临床功效的候选药物,包括洛比那韦和替米沙坦,该成果最近发表在《ACS Omega》上。

旧药新用

由于新药上市需要的时间长、成本高,所以当需求十分迫切时,小分子药物重定位是一种值得考虑的选择。 与传统药物开发过程相比,药物重定位除上市速度更快之外,还具有诸多优势,例如降低因不良副作用而导致后期失败的风险。

药物重定位并非什么新概念。 但迄今为止,其应用主要还是投机性的,而非系统性的。 目前在药物重定位最成功的一些实例中(例如万艾可和米诺地尔),在患者报告始料未及的副作用中,出现了新的适应症。 最近,科学家们引入了更系统的药物重定位方法,包括特征匹配、分子对接、基因关联、路径图和临床回顾性分析等计算方法。 研究人员希望有一种计算方法能将现有小分子疗法与新找到的药物靶标可靠地联系起来,从而将现有投资组合的治疗价值最大化。

不断接近靶标

冠状病毒是一个大型病毒家族,可在人类和许多动物物种当中诱发轻微至中度的上呼吸道疾病,这早已众所周知。 尽管很少有动物特异性冠状病毒感染人类并在人类中传播,但迄今已证明三种冠状病毒能够实现这种跨越:SARS-CoV-1、MERS-CoV和当前的SARS-CoV-2。 这三种都是 β 属冠状病毒,人们认为他们均源自蝙蝠。 考虑到这些病毒的相似性以及它们在人类中传染的进展情况,之前的SARS和MERS研究是寻找SARS-CoV-2药物靶标的一个绝佳入手点。 SARS-CoV-2的所有蛋白质中,3CLpro和RdRp是QSAR建模的两种理想靶蛋白,部分原因是它们与SARS-CoV和MERS-CoV以及其他已知的冠状病毒中已被确定的蛋白质非常相似。

3CLpro是冠状病毒将多聚蛋白肽裂解成单个功能性非结构蛋白(NSP)必不可少的蛋白酶比较氨基酸序列和蛋白质结构时发现,3CLpro在SARS-CoV-2与其他人类冠状病毒之间高度同源。 结果表明:它有 96%序列与SARS-CoV-1同源,87%与MERS-CoV同源,90%与Human-CoV同源。 因此,之前在冠状病毒相关研究中发现的3CLpro 抑制剂有望作为SARS-CoV-2 3CLpro的抑制剂,相关的构效关系(SAR)数据对训练机器学习模型寻找SARS-CoV-2 3CLpro的新抑制剂极具价值。

RdRp是RNA病毒在宿主细胞中复制病毒基因组时主要使用的酶。 对 SARS-CoV-2 RdRp 的结构研究和序列分析表明,这种酶与 SARS-CoV-1 RdRp 的结构非常相似,且包含大多数病毒 RdRp(包括 HCV)中存在的几个重要氨基酸残基。 好在目前已经将各种病毒RdRp作为RNA病毒的抑制剂进行了广泛研究,特别是在HCV相关研究中。 因此,现有的RNA病毒RdRp抑制剂(例如 HCV)或许可以为SARS-CoV-2 RdRp抑制的药物开发提供有价值的见解。

利用机器学习对现有疗法进行优先排序

近年来,机器学习模型越来越多地用于加速药物发现。 具体而言,QSAR通常是现代药物发现过程中的第一步。 简而言之,QSAR是一些数学模型,以对分子结构的定量测量为基础,近似表示相当复杂的化学或生物化学性质。 这些预测性数学模型被用于筛选大型化学结构数据库,对最有可能有效抗击既定靶标的潜在候选药物进行优先排序。 该方法假设化学物质的活性与自身化学结构直接相关,因此,具有相似结构特征的分子将表现出相似的物理性质和/或生物效应。

在这项研究中,我和同事密切合作,为3CLpro和RdRp蛋白靶标构建了多个具有高度预测性的QSAR模型。 我们的团队(包括计算科学家和化学家)选择了1000多种已经具有结构生物活性数据的抑制剂作为这些模型的训练分子。 我们从最新的SARS-CoV-2生物测定研究以及 CAS内容合集中有关SARS-CoV-1、MERS-CoV和其他相关病毒的现有研究中收集了数据。 利用这些数据,我们运用多种机器学习算法构建了数十个QSAR模型,从中选择性能最强的模型——一个针对3CLpro,另一个针对RdRp。


阅读期刊文章 QSAR machine learning models and their applications for identifying viral 3CLpro- and RdRp-targeting compounds as potential therapeutics for COVID-19 and related viral infections(《QSAR 机器学习模型及其在识别 3CLpro 和 RdRp 靶标化合物作为治疗 COVID-19 和相关病毒感染的潜在候选药物的应用》)全文,了解检测的所有模型,看看哪些潜在候选药物排名靠前。


我们使用了由此得出的两个QSAR模型来筛选大量潜在候选药物,包括1087款 FDA 批准的药物CAS COVID-19 抗病毒候选化合物数据集中的近 50,000 种物质,以及自2003年以来发表的有关SARS、MERS和COVID-19的文献中已被确认具有药理活性或由CAS标引为治疗角色的约113,000 个物质。 通过在建模时将蛋白酶抑制剂活性作为物质结构的函数,我们从预计可作为冠状病毒 3CLpro和RdRp的有效抑制剂的物质中找到了一些最有希望的候选药物。 此外,在我们的模型预测的许多可以抑制SARS-CoV-2中的3CLpro或RdRp的物质中,之前也已经发现了治疗活性,可以治疗其他可能引发COVID-19严重感染的疾病。 例如,在某些情况下,一种已知对治疗心脏病也具有活性的COVID-19抗病毒候选药物(例如盐酸地尔硫卓[恬尔心])可能具有双重治疗活性。

经验证,该模型具有较高的受试者操作特性曲线 (ROC-AUC) 、灵敏度高、特异性强且准确性高(图1)。 这些模型预测具有高活性的某些分子,现已发表的实验生物测定研究和临床试验验证了这些分子的活性,进一步证明了这些模型具有预测能力。

**
图 1 3CLpro和RdRp训练过的二元分类器的受试者特征(ROC)曲线。

防范未来疫情

尽管这项研究的重点是找到用于应对当前COVID-19疫情危机的潜在治疗化合物,但未来可能还会出现其他病毒引发的疫情。 因此,我们现在必须持续投资,专注于抗病毒药物研究,为未来疫情做好准备。 由于各类不同的病毒均可能引发流行病(例如冠状病毒、流感病毒、埃博拉病毒、逆转录病毒),而且每种新药或适应症的人体安全性和功效测试仍需花费大量时间,因此,研究用途广泛的抗病毒药物和疫苗将最具价值。

持续开发基于计算机的药物发现方法(例如本文所述的机器学习程序、分子对接和虚拟筛选)将至关重要。 计算机处理能力的不断提高,对接和结构预测算法的持续开发以及蛋白质晶体结构确定技术将推动这项事业的进程。 此外,高通量筛选、组学技术和已开发药物重定位将继续发挥更加重要的作用。 但是,这些新技术驱动的方法并不会取代人类的实验室研究,而是作为后者的补充,提高研究效率。 这项工作将人类数据标引和机器学习模型结合在一起,我们希望能够借此成功找到治疗COVID-19的潜在小分子候选药物,凸显人与机器协同合作在药物发现中的价值,同时为正在开展的COVID-19抗病毒研究及未

作为全球科学界的一员,CAS致力于充分利用我们的所有资源和能力来帮助抗击新冠疫情。 探索其他公开的 CAS COVID-19 资源,包括科学见解、公开的数据集和特别报告。