生命科学领域创建权威结构的挑战与机遇

CAS Science Team

CAS 数据专家 Mark Schmidt、Jeff Wilson 和 Nicole Stobart
CAS 数据专家 Mark Schmidt、Jeff Wilson 和 Nicole Stobart

对话 CAS 专家 Nicole Stobart、Jeff Wilson 和 Mark Schmidt 。

CAS 在化学领域使用权威结构和标识符已有近 100 年历史,由此奠定了我们世界领先的收录和标引工作的基石。 现在,我们的生命科学团队希望为新的行业创建同等品质的索引工具。 在本文中,我们将与生命科学高级功能经理 Nicole Stobart、高级数据科学经理 Jeff Wilson 博士, 以及首席数据管理员 Mark Schmidt 讨论如何利用权威结构开辟这一全新道路。

CAS:您如何描述权威结构?

Jeff:从我们的角度来看,权威结构主要侧重于身份标识。 在任何领域,无论是蛋白质、化学物质还是核酸,大家都希望能够逐一对照地识别。 纵观 CAS 历来的化学合集,我们拥有经典权威结构 CAS REGISTRY® (CAS 登记号)。 在 CAS 登记号中,我们希望能够对不同的化学物质进行唯一描述,并确保每次在收录过程中遇到相同物质时都以同样的方式加以标识。 对乙酰氨基酚便是一则简单的例子。 无论是对乙酰氨基酚、泰诺 (Tylenol) 还是扑热息痛,它们都被标识为同一种化学物质。

CAS:为什么权威结构对生命科学家如此重要?

Nicole:我们目前的权威结构对于小分子很有效,但对于蛋白质或酶的情况如何呢? 是的,有一些序列可以与它们相关联,但倘若一个序列中的氨基酸出现变化,是否会构成一个不同的实体? 我们认识到,研究人员在这一方面遇到了困难。 有多家不同的公司或组织试图对此进行整理,但还没有任何机构对这类生物制品实施过完全权威的整理工作。 在尝试为客户提供生物信息的过程中,我们发现,如果没有首先对这类信息进行权威性的整理,那么便难以为继。 这不仅需要收集成堆的数据,还要对其进行权威性整理,并确保数据整理方式与全球其他组织预期的整理方法一致。

Mark:在生命科学领域,我们目前正致力于标识所有重要物质,并就此类物质的定义及其称呼方式达成一致,这样才能真正实现权威性。 在传统业务领域,如果遇到某种化学物质,可以查看 CAS 内容合集,然后添加有关这种物质的新信息。 我们正试图在生命科学(如蛋白质和酶等)领域实现同样的功能,为此,首先需要就这些物质的身份标识达成一致。

Jeff:这取决于研究人员及其所在地点,但我认为,如果能够明确描述事物,那么在列出数据时便可以大幅提高一致性和可靠性。 从最简单的层面来说 (这又回归到我们一直以来的做法):整理数据以供检索,这样当用户使用我们的检索工具(如 CAS SciFindern)时,无论是想称之为癌症还是肉瘤,我们都知道这些术语之间的关系。 我们不会强迫用户使用所有这类不同术语进行检索以查找数据,而是在后台处理这一情况,只需要使用其中一个术语即可找到所有内容。

除了搜索和检索之外,一旦涉足更复杂的应用领域(如知识图谱和发现重要关系等),如果实体分散在各个节点上,那么建立准确的知识图谱就会变得很困难。 如果我将某个感兴趣的蛋白质作为靶标,则需要将该蛋白质的所有数据均存储在该单个节点上,再将其他相关实体分别置于各个节点。 否则,便将得到一个非常复杂的知识图谱,其中该蛋白质有 15 个节点,该疾病有 12 个节点,同一物质有 7 个节点。 这样就形成了极其复杂的关系图,但却无法看出实际上只有 3 个实体,它们以可预测的方式相互关联,原因在于没有预先定义这类实体的身份标识。

CAS:您如何定义 CAS 的“标引”一词?

Mark:人们往往用“标引”来表示两种不同的含义。 首先是数据的摄取和聚合,在 CAS 通常不称之为标引。 还有一种则是 CAS 历史悠久的标引工作,即科学家研究原始信息来源,然后运用知识积累提取和改进信息,再通过更有条理的方式提供此类信息。

Jeff:我们的大多数科学家都在从事 Mark 所描述的标引工作,相关人员负责从原始资料中提取关键信息,然后加以改进、标准化,并将其与其他数据点连接起来。但在此之上还有另一层涵义。 我们设有专门负责收录权威合集的团队,他们会审查收录的新信息并做出决定:这是新信息吗? 还是不是? 我们该如何进行整理? 它们之间有何联系? 我们应使用什么术语? 我们没有让原始文献的信息提取人员做出这类决定,而是让权威合集的收录人员来负责决策工作。

Mark:最关键的一点是,权威内容永无止境。 我们不仅要持续添加新发现或新的有趣信息,还要不断添加新的同义词,以保持其实用性。

CAS:您认为权威结构在标引方面的优势是什么?

Jeff:在开始使用权威结构来汇总身份标识和术语之后,便可以简化新实例的识别工作。 一旦收集了实体的所有名称,即可创建相应的权威结构立即进行查看和匹配。 同义词为标引提供便利。

Mark:权威结构有助于整理并汇总所有相关信息。 例如对于蛋白质,我们对这种蛋白质的称呼可能与用户不完全一样,但如果我们知道用户如何称呼,而我们又怎么称呼,那么我们就可以将所有信息汇编在同一身份标识下,从而将所有信息汇集在一起。

CAS:能否利用人工智能来帮助创建权威结构,或借助人工智能进行标引?

Nicole:为了实现人工智能标引,我们需要确保所讨论的任何内容均经过权威整理和标识。 如果数据没有经过人工整理,或者至少没有以权威方式进行思考和标识,那么便很难依赖任何采用机器学习或机器标引的数据。

Jeff:对于人工智能及其与数据的关系,我们有一个普遍的理念,即利用最先进的技术来提高人类的能力。 我们有数百名科学家负责从事数据标引工作,如果看看他们如今所做的工作,会发现比 30 年前要复杂得多。 每当采用一项新技术时,我们都会利用这项技术来使人类能够完成更复杂的工作。 我们利用自然语言处理和机器学习技术来帮助识别文档和见解,但所有这些随后都会呈现给人类,由人类来最终决定哪些是重要的或哪些是相关的,以及如何进行整理。

创建结构化数据后,我们也会在另一端利用技术和人工智能解决方案做同样的事情。 我们竭力利用最好的技术,力求向用户展示所要求的内容以及与之相关的内容。 我们可以使用预测技术来帮助规划合成,旗下的人工智能引擎有助于预测现有技术,此外,用户还可以进行布尔类型的检索,并尝试找到相关内容。 因此,我们目前致力于让数据高度结构化,并在此基础上分层使用人工智能技术,而不是用人工智能来取代人工。

CAS:CAS 将如何定义和标识生物实体?

Mark:这正是我们开始讨论身份标识语义的出发点。 这是生命科学中一个非常困难且复杂的问题,我们充分意识到了这一点,每天都在根据具体情况努力应对。 尽管可能无法做到尽善尽美,但我们会尽力而为。 我们将做出合理的可靠选择,让这类选择对生命科学领域的业内人士切实有用。 尽管无法每次都令所有人满意,但我们将致力于保证选择的可预见性和明确性,让大家能够可靠地使用 CAS 所提供的系统。

当面临“某个核苷酸的差异是否构成了一项新的身份标识?”这样的问题时,我们可以做出选择。 然而,如果三个不同的单核苷酸多态性变为一个身份标识而不是三个,那么我们无疑需要对所有这三项差异加以描述,并将它们附加到所提出的一项标识上。 因此,即使我们决定将不同事物归于一项标识,所有信息仍然具有可发现性、可连接性和可访问性。

最初,我们会选择标识语义并对其进行定义,然后随着新信息的到来,我们将做出决定:“这是一项新的身份标识,还是对现有标识的补充?”我们希望尽可能多地利用计算能力,但在任何时候,我们做出此类决定的最终准确来源都出自最了解该主题领域的人类。 通过这种方式,我们将提供值得信赖的服务。

Jeff:需要在前期建立一套明确、一致且全面的规则。 对于未曾尝试过定义实体和汇总信息的人而言,这似乎非常武断,但我们发现,在整理信息的过程中,人们为了避免犯错需要保持明确性和一致性。 可以在特定情况下找到科学的细微差异,但为每件事都制定规则会导致事物分散,加大查找和收集工作的难度。 相反,最好是制定一项适用于 99% 情况的规则。 在化学领域,我们有时会收到科学家的来信称:“我看到某个物质在 CAS 登记号中的描述方式有误,我有数据表明用另一种方式描述会更合适。”而我们通常的回答是,所含内容均围绕可发现性进行整理。 这就是问题的关键所在,标引工作需要始终如一地引导人们找到所需数据,即使在此过程中会遗漏一些科学细微差异。

CAS:你们是利用结构还是功能来创建生命科学领域的这类身份标识?

Mark:对于许多生物实体,尤其是蛋白质来说,功能多于结构,但通常是两者的结合。 在化学领域,我们可以轻松创建完全基于结构的权威结构,但这对生命科学来说却并不相同。 我们需要解决多个不同的权威性问题:蛋白质、抗体、生物体等。其中每一项都需要采用独特的处理方式。 进入生命科学领域时,我们必须摆脱单纯基于结构的身份标识,这种情况在过去是没有必要的。

CAS:随着时间推移和新研究的开展,生物功能也会发生变化,你们打算如何解决按功能定义的持久性问题?

Jeff:我们总是尝试未雨绸缪,我们无法预测十年后生命科学的发展方向,但在创建一致结构时,我们会在其中加入一些灵活性和可扩展性。 其中的关键在于识别何时应继续使用当前结构,以及当出现新的科学分支时何时需要采用新结构。 人们不会停止描述蛋白质,但可能会出现某种子类别,需要为此创建新的权威结构。

Mark:我认为,如果早在开始阶段就稳扎稳打,做好了合理的标识语义工作,那么便已经为未来做好了准备。科学家们很可能会把一项身份标识细分为多项更具体的标识。 不妨想想生物的种属命名,这种方式在很长一段时间内都是行之有效的。 人们对亚种的需求并没有让种属模式完全失效。 我们可以建立这种结构,用于身份标识时可能会比开始阶段更为具体,但也不会完全过时。

CAS:是什么让 CAS 成为汇总这类生命科学细分权威结构的合适组织?

Jeff:成为某一领域的全球权威后,就会拥有一定的自我维持能力。 如果纵观化学物质领域,没有人会质疑 CAS 登记号。 该平台极具权威性。 虽有其他物质合集,但 CAS 的组织定位与大多数其他组织并不相同。 作为美国化学会的分支机构,我们的使命不仅仅是盈利,更是促进科学发展。 我们拥有人才、专业知识和空间来处理此类生命科学数据,能够采用与 CAS 登记号相同的方式进行整理。 如果这个项目完成后,CAS 未能成为蛋白质的权威平台,那就是我们未竟全功。 这便是我们要做的工作。

Mark:在生命科学领域,人们普遍希望就一套有意义的身份标识达成一致,我们已在小分子化学领域解决了这一问题。 目前生命科学家们正在寻找一套明确的身份标识,并定义它们之间的关系,从而围绕这一结构来整理数据。 我们正在涉足这种复杂性,为混乱带来秩序。 在这方面取得足够进展后,人们就会接受我们掌握了大多数人关心的所有蛋白质,并以大多数人能利用的方式进行讨论。 当人们在我们的合集中找不到所需蛋白质时,他们会提醒我们,让我们添加该种蛋白质,而不是自行建立完全独立的数据库。 这就是我们的目标:不仅仅是构建一个权威的数据合集,更要成为生命科学领域的权威。

CAS:你们当前开展的工作与现有的那些有何不同?

Mark:在很多科学领域,人们会采取适合自身情况的方式,在本地层面解决自己或同事面临的问题。 他们创建相应的数据库,其中包含了所关心物质的身份标识,以能够理解的方式进行描述,并带有相关信息。 与此同时,在稍有重叠的领域从事相同或不同工作的人,他们则会选择不同的方式来描述这些身份标识,并收集不同的信息。 然后,我们开始看到一些项目将这些较小的领域联合起来,使所有这类从业者都能达成共识,并促进跨越边界的发现。 因此,生命科学领域已经出现了这种情况,但还没有一种方法能将大量领域与一套统一的身份标识结合在一起。

我们的目标就是实现这样的平台:可以在此查询蛋白质靶标,尽管不知道该蛋白质属于三四种生物通路的组成部分,但当在该信息集中找到这一标识时,即可立即查看所有相关联系。 此外,还可以了解到它是否被用作某种疾病状态或治疗结果的生物标志物。 能够围绕一个身份标识汇集来自不同地方的所有信息,可以找到并加以利用,从而创造出以前无法获得的价值。

Jeff:现在有很多小规模组织都在汇总这一拼图的组成部分。 疾病本体是存在的,Uniprot 试图整理蛋白质,NCBI 设有一项生物体数据库。 尽管其中每一项本身都属于权威结构,但它们之间没有任何有效连接,必须四处找寻。 我们致力于实现一套统一的数据集,可以在此查找所有生命科学领域的数据,这些数据相互连接、相互协调。 为了做到这一点,我们必须采用 Uniprot、Ensemble 和 CAS REGISTRY 三方的蛋白质视图,并将其统一为单一视图和一套身份标识。 但在这里,用户可以访问所有这些小型合集。 一旦将其连接起来,效果能够超越各部分的总和,因为用户可以发现以前无法找到的信息。

Nicole:我们希望成为全球最全面的生命科学数据库。 我们致力于解决客户遇到的各种问题和挑战,而他们如今正面临着对生命科学权威结构的需求。

CAS:当你们涉足这一领域时,是否遇到过其他现有数据库的阻碍?

Mark:不可能得到所有人的认可。 在某些时候,必须行使一些权力,做出一些选择。 很难反对一些根深蒂固的事物,我们在执行过程中也会尽量避免这样做。 我们不会说服每个人都开始使用与习惯不同的叫法,但我们希望以此为基础。

原则很简单:我们将与现有数据库保持一致。 但在实践中,做出这些选择肯定会难上加难。 如果两个数据库对同一物质有不同的表述,我们要么选择其中一个,要么选择新的术语,并尝试在二者的基础上加以改进。 我知道这听起来非常困难,但我们觉得,实现这个难点正是我们要为这一领域增加的价值,也正是我们想要向客户所提供的内容。

Nicole:我们绝对不希望疏远那些使用现有数据库并从中发挥价值的人。 我们想做的是带来更多价值,并在现有基础上增加价值。 我们尚未讨论其他标引人员的想法,还不确定他们有何感想!

Jeff:实际上,从事标引工作的科学家只占少数,所以在某种程度上来说,他们并不是我们需要关注的对象,因为我们的目标是帮助大多数人。 我们听到很多科学家都表示,他们在获取所需数据时遇到了困难。

Nicole:正是如此! 最近,我和某位科学家聊天,他创建了一个抗体信息数据库。 他说,他这样做并不是因为想要整理抗体数据,而是因为需要抗体数据来运行预测模型。 我认为很多科学家都面临这种情况,使得研究进程遭遇阻碍,而这正是我们计划解决的问题。

CAS:如果可以挥动魔杖解决权威结构的某个难题,那会是什么,又会有何影响?

Mark:我想解决的难题是让人们使用相同的词汇来表示相同的含义。 如果能做到这一点,事情就简单多了。 这项工作的重要组成部分就是利用科学家用来描述事物的词语,找到正确的身份标识,然后将这些词语与该标识联系起来。 如果我们能缩小用词范围,让每个人都达成共识,即可跳过这个环节。

Jeff:我希望让更多人了解权威结构,拥有做出尝试的愿景和热情,以有效方式来创建这类结构。 即使在支持权威结构的组织内部,我仍然花费了很多时间向人们解释为什么需要权威结构,以及有何价值。 虽然为此进行倡导是有回报的,但这会让我有点分心,毕竟我最喜欢的工作是实际处理数据和进行构建。