探索知识图谱,助力COVID-19药物发现

Jacob Al-Saleem , Senior Data Scientist

CAS Biomedical Knowledge Graph thumbnail image

加速COVID-19 新药发现

目前,只有少数药物被批准用于治疗COVID-19,但是开发新药可能需要数十年和数十亿美元;那么,是否有可能重新利用现有药物来开发其新用途? CAS(美国化学文摘社)最近发布的白皮书展示了“CAS 知识图谱”如何揭示数据间新的关联和见解,期望帮助科学家找到潜在可重新利用的现有药物。

药物重定位是加快新疗法开发的关键。 然而,整合所有重要信息以及新蛋白质、病毒、靶点、通路和临床信息间的数据关联面临挑战。 该白皮书展示了CAS知识图谱是如何在现有药物中找到可用于治疗COVID-19的最佳临床候选药物。

什么是知识图谱?

知识图谱结合不同来源的数据来对特定领域进行建模。 知识图谱用节点和线来描述数据。 节点代表每个数据点,线代表它们之间的关联。 下图提供了一个用知识图谱来预测哪些药物可能会抑制血管炎症的简化示例。

显示数据连接节点和边的 CAS 知识图谱

图 1. 使用节点和线来展示数据之间关联的知识图谱示例


传统数据库可能只展示数据间的直接关联(转录因子STAT3直接抑制剂),但知识图谱可以展示更深层的数据关联。 在这个例子中,知识图谱展示了在该通路上间接起作用的抑制剂。

深入研究COVID-19:小分子药物发现

CAS生物医学知识图谱整合了由CAS科学家人工标引的CAS内容合集(CAS Content CollectionTM )与公开可用的生物医学数据。

CAS生物医学知识图谱包含600多万个小分子、24,000多种疾病以及26,000多个人类和病毒基因的高质量数据。 知识图谱揭示了使用传统研究方法无法发现的见解。

我们用于发现COVID-19潜在候选药物的方法包括两个核心组成部分:

  • CAS科学家找到了20个与COVID-19相关的生物过程。 这些过程包括血液凝固、病毒侵入和内吞作用。 图谱中有一个代表“细胞因子风暴”的疾病节点 ,“细胞因子风暴”是危重型COVID-19病理学的重要特征之一。
  • 用文献中报道的基因表达的变化,特别是因SARS-CoV-2感染而显著升高的基因表达, 来识别相关的生物过程以及与这些基因中≥4个基因相关的生物过程。 这些生物过程包括炎症反应、血管生成和RNA转录的负调控。
用于构建 CAS 知识图谱的数据组成部分

图 2. 使用双核心组成方法寻找COVID-19药物的潜在小分子候选药物的示意图

利用知识图谱,我们找到了:

  • 所有与这些生物过程有抑制或激活关系的小分子;
  • 任何抑制上调基因的小分子。

该分析找到了有潜力被再利用为COVID-19药物的1,350个小分子。

评估新的潜在COVID-19药物

我们找到了这些潜在分子之后,就会评估它们之间的关联能力,并相应地提高分数。 为此,我们使用了一种新算法对每个分子进行排序。 该算法评估了小分子之间的关系以及与我们双组分方法中找到的基因和生物过程的相互作用。

例如,细胞因子风暴被认为是一个重要的关联节点。 之后,我们评估了小分子之间的关系以及与我们双组分方法中找到的的基因和生物过程的相互作用。 重要关联的评分会被提高,如与细胞因子风暴和基因激活相关的小分子之间的关联,因为这些关联很罕见。

据此,我们能够制定出所有小分子的排名表,并在白皮书中列出前50名。 如下图所示,您可以看到排名前10的候选药物名。 节点的大小对应于该节点与其它节点连接数量的多少。

展示 COVID-19 的前十种候选治疗药物的知识图谱网络图表
Click to enlarge" data-entity-type="file" data-entity-uuid="8b0840af-ea59-4d98-b438-1c0a04ae9f44" src="/sites/default/files/inline-images/knowledge-graph-network-diagram.png" />

图 3. 网络图展示了排名前十的候选药物的关联网络,其中节点的大小对应于该节点与其他节点的关联数量的多少

在排名前50的药物中,有11款目前正被用于治疗COVID-19患者的临床试验。 这也验证了我们结果的可借鉴性。

我们的生物医学知识图谱揭示了之前与SARS-CoV-2或一般病毒感染机制关联的四类药物。 这四类药物包括:

激酶抑制剂

激酶抑制剂是排名结果中发现的最大的一类药物。 激酶参与几乎所有的生物过程,并且在许多疾病中活性失调。 受体酪氨酸激酶(RTK)参与许多病毒的细胞侵入过程。 已发现的激酶抑制剂包括影响RTK的激酶,如EGF、FGF、PDGF和ALK受体,以及非受体酪氨酸激酶,如Bruton酪氨酸激酶。 我们的知识图谱还找到了丝氨酸-苏氨酸激酶抑制剂的靶向受体B-RAF、PKC、PIM和GSK-2beta。

组蛋白去乙酰化酶抑制剂 (HDI)

HDIs通过减少组蛋白去乙酰化来调控基因表达。 HDIs能够降低血管紧张素转换酶2(ACE2, SARS-CoV-2的主要细胞表面受体)和ABO糖基转移酶(一种有助于调节血型的酶)的表达。 ABO糖基转移酶是已知的COVID-19风险因子。HDIs还能调控参与COVID-19免疫应答的几种趋化因子和细胞因子。因此,HDIs被包含于排名结果中是合乎逻辑的。

微管调节剂

微管是由微管蛋白亚基组成的细丝。 研究表明,SARS-CoV-2蛋白与微管或微管相关蛋白相互作用。 我们的研究结果表明,多西紫杉醇、秋水仙碱和甲苯咪唑等微管调节剂可能有助于破坏 SARS-CoV-2感染。 秋水仙碱已被用于治疗COVID-19患者的临床试验。

蛋白酶抑制剂

已鉴定的蛋白酶抑制剂大多数为蛋白酶体抑制剂。 研究表明,泛素-蛋白酶体系统参与了病毒复制和细胞因子风暴,包括与冠状病毒相关的疾病。 蛋白酶抑制剂是COVID-19相关探索合乎逻辑的选择。 事实上,几种此类抑制剂已经在被研究用于COVID-19药物。 其中的一些也在我们的排名结果中,如硼替佐米、卡非佐米和沙格列汀。


数据关联的力量

CAS知识图谱所用的方法提升了发现COVID-19潜在药物的能力,并将对COVID-19以外其它疾病的药物发现具有重要参考价值,如阿尔茨海默症、帕金森症、自身免疫性疾病、癌症,甚至一些罕见病症。 我们的知识图谱在进一步扩展或模块化后,可为其他科学领域提供巨大价值,其中包括化学、营养和可再生能源领域等等,应用机会非常大。 机遇几乎无处不在。