生命科学领域创建权威结构的挑战与机遇

CAS 数据专家 Mark Schmidt、Jeff Wilson 和 Nicole Stobart

对话 CAS 专家 Nicole Stobart、Jeff Wilson 和 Mark Schmidt 。

CAS 在化学领域使用权威结构和标识符已有近 100 年历史，由此奠定了我们世界领先的收录和标引工作的基石。现在，我们的生命科学团队希望为新的行业创建同等品质的索引工具。在本文中，我们将与生命科学高级功能经理 Nicole Stobart、高级数据科学经理 Jeff Wilson 博士，以及首席数据管理员 Mark Schmidt 讨论如何利用权威结构开辟这一全新道路。

CAS：您如何描述权威结构？

Jeff：从我们的角度来看，权威结构主要侧重于身份标识。在任何领域，无论是蛋白质、化学物质还是核酸，大家都希望能够逐一对照地识别。纵观 CAS 历来的化学合集，我们拥有经典权威结构 CAS REGISTRY® (CAS 登记号)。在 CAS 登记号中，我们希望能够对不同的化学物质进行唯一描述，并确保每次在收录过程中遇到相同物质时都以同样的方式加以标识。对乙酰氨基酚便是一则简单的例子。无论是对乙酰氨基酚、泰诺 (Tylenol) 还是扑热息痛，它们都被标识为同一种化学物质。

CAS：为什么权威结构对生命科学家如此重要？

Nicole：我们目前的权威结构对于小分子很有效，但对于蛋白质或酶的情况如何呢？ 是的，有一些序列可以与它们相关联，但倘若一个序列中的氨基酸出现变化，是否会构成一个不同的实体？我们认识到，研究人员在这一方面遇到了困难。有多家不同的公司或组织试图对此进行整理，但还没有任何机构对这类生物制品实施过完全权威的整理工作。在尝试为客户提供生物信息的过程中，我们发现，如果没有首先对这类信息进行权威性的整理，那么便难以为继。这不仅需要收集成堆的数据，还要对其进行权威性整理，并确保数据整理方式与全球其他组织预期的整理方法一致。

Mark：在生命科学领域，我们目前正致力于标识所有重要物质，并就此类物质的定义及其称呼方式达成一致，这样才能真正实现权威性。在传统业务领域，如果遇到某种化学物质，可以查看 CAS 内容合集，然后添加有关这种物质的新信息。我们正试图在生命科学（如蛋白质和酶等）领域实现同样的功能，为此，首先需要就这些物质的身份标识达成一致。

Jeff：这取决于研究人员及其所在地点，但我认为，如果能够明确描述事物，那么在列出数据时便可以大幅提高一致性和可靠性。 从最简单的层面来说 (这又回归到我们一直以来的做法)：整理数据以供检索，这样当用户使用我们的检索工具（如 CAS SciFindern）时，无论是想称之为癌症还是肉瘤，我们都知道这些术语之间的关系。我们不会强迫用户使用所有这类不同术语进行检索以查找数据，而是在后台处理这一情况，只需要使用其中一个术语即可找到所有内容。

除了搜索和检索之外，一旦涉足更复杂的应用领域（如知识图谱和发现重要关系等），如果实体分散在各个节点上，那么建立准确的知识图谱就会变得很困难。如果我将某个感兴趣的蛋白质作为靶标，则需要将该蛋白质的所有数据均存储在该单个节点上，再将其他相关实体分别置于各个节点。否则，便将得到一个非常复杂的知识图谱，其中该蛋白质有 15 个节点，该疾病有 12 个节点，同一物质有 7 个节点。这样就形成了极其复杂的关系图，但却无法看出实际上只有 3 个实体，它们以可预测的方式相互关联，原因在于没有预先定义这类实体的身份标识。

CAS：您如何定义 CAS 的“标引”一词？

Mark：人们往往用“标引”来表示两种不同的含义。 首先是数据的摄取和聚合，在 CAS 通常不称之为标引。还有一种则是 CAS 历史悠久的标引工作，即科学家研究原始信息来源，然后运用知识积累提取和改进信息，再通过更有条理的方式提供此类信息。

Jeff：我们的大多数科学家都在从事 Mark 所描述的标引工作，相关人员负责从原始资料中提取关键信息，然后加以改进、标准化，并将其与其他数据点连接起来。但在此之上还有另一层涵义。我们设有专门负责收录权威合集的团队，他们会审查收录的新信息并做出决定：这是新信息吗？还是不是？我们该如何进行整理？它们之间有何联系？我们应使用什么术语？我们没有让原始文献的信息提取人员做出这类决定，而是让权威合集的收录人员来负责决策工作。

Mark：最关键的一点是，权威内容永无止境。 我们不仅要持续添加新发现或新的有趣信息，还要不断添加新的同义词，以保持其实用性。

CAS：您认为权威结构在标引方面的优势是什么？

Jeff：在开始使用权威结构来汇总身份标识和术语之后，便可以简化新实例的识别工作。 一旦收集了实体的所有名称，即可创建相应的权威结构立即进行查看和匹配。同义词为标引提供便利。

Mark：权威结构有助于整理并汇总所有相关信息。例如对于蛋白质，我们对这种蛋白质的称呼可能与用户不完全一样，但如果我们知道用户如何称呼，而我们又怎么称呼，那么我们就可以将所有信息汇编在同一身份标识下，从而将所有信息汇集在一起。

CAS：能否利用人工智能来帮助创建权威结构，或借助人工智能进行标引？

Nicole：为了实现人工智能标引，我们需要确保所讨论的任何内容均经过权威整理和标识。如果数据没有经过人工整理，或者至少没有以权威方式进行思考和标识，那么便很难依赖任何采用机器学习或机器标引的数据。

Jeff：对于人工智能及其与数据的关系，我们有一个普遍的理念，即利用最先进的技术来提高人类的能力。我们有数百名科学家负责从事数据标引工作，如果看看他们如今所做的工作，会发现比 30 年前要复杂得多。每当采用一项新技术时，我们都会利用这项技术来使人类能够完成更复杂的工作。我们利用自然语言处理和机器学习技术来帮助识别文档和见解，但所有这些随后都会呈现给人类，由人类来最终决定哪些是重要的或哪些是相关的，以及如何进行整理。

创建结构化数据后，我们也会在另一端利用技术和人工智能解决方案做同样的事情。我们竭力利用最好的技术，力求向用户展示所要求的内容以及与之相关的内容。我们可以使用预测技术来帮助规划合成，旗下的人工智能引擎有助于预测现有技术，此外，用户还可以进行布尔类型的检索，并尝试找到相关内容。因此，我们目前致力于让数据高度结构化，并在此基础上分层使用人工智能技术，而不是用人工智能来取代人工。

CAS：CAS 将如何定义和标识生物实体？

Mark：这正是我们开始讨论身份标识语义的出发点。 这是生命科学中一个非常困难且复杂的问题，我们充分意识到了这一点，每天都在根据具体情况努力应对。尽管可能无法做到尽善尽美，但我们会尽力而为。我们将做出合理的可靠选择，让这类选择对生命科学领域的业内人士切实有用。尽管无法每次都令所有人满意，但我们将致力于保证选择的可预见性和明确性，让大家能够可靠地使用 CAS 所提供的系统。

当面临“某个核苷酸的差异是否构成了一项新的身份标识？”这样的问题时，我们可以做出选择。然而，如果三个不同的单核苷酸多态性变为一个身份标识而不是三个，那么我们无疑需要对所有这三项差异加以描述，并将它们附加到所提出的一项标识上。因此，即使我们决定将不同事物归于一项标识，所有信息仍然具有可发现性、可连接性和可访问性。

最初，我们会选择标识语义并对其进行定义，然后随着新信息的到来，我们将做出决定：“这是一项新的身份标识，还是对现有标识的补充？”我们希望尽可能多地利用计算能力，但在任何时候，我们做出此类决定的最终准确来源都出自最了解该主题领域的人类。通过这种方式，我们将提供值得信赖的服务。

Jeff：需要在前期建立一套明确、一致且全面的规则。 对于未曾尝试过定义实体和汇总信息的人而言，这似乎非常武断，但我们发现，在整理信息的过程中，人们为了避免犯错需要保持明确性和一致性。可以在特定情况下找到科学的细微差异，但为每件事都制定规则会导致事物分散，加大查找和收集工作的难度。相反，最好是制定一项适用于 99% 情况的规则。在化学领域，我们有时会收到科学家的来信称：“我看到某个物质在 CAS 登记号中的描述方式有误，我有数据表明用另一种方式描述会更合适。”而我们通常的回答是，所含内容均围绕可发现性进行整理。这就是问题的关键所在，标引工作需要始终如一地引导人们找到所需数据，即使在此过程中会遗漏一些科学细微差异。

CAS：你们是利用结构还是功能来创建生命科学领域的这类身份标识？

Mark：对于许多生物实体，尤其是蛋白质来说，功能多于结构，但通常是两者的结合。 在化学领域，我们可以轻松创建完全基于结构的权威结构，但这对生命科学来说却并不相同。我们需要解决多个不同的权威性问题：蛋白质、抗体、生物体等。其中每一项都需要采用独特的处理方式。进入生命科学领域时，我们必须摆脱单纯基于结构的身份标识，这种情况在过去是没有必要的。

CAS：随着时间推移和新研究的开展，生物功能也会发生变化，你们打算如何解决按功能定义的持久性问题？

Jeff：我们总是尝试未雨绸缪，我们无法预测十年后生命科学的发展方向，但在创建一致结构时，我们会在其中加入一些灵活性和可扩展性。 其中的关键在于识别何时应继续使用当前结构，以及当出现新的科学分支时何时需要采用新结构。人们不会停止描述蛋白质，但可能会出现某种子类别，需要为此创建新的权威结构。

Mark：我认为，如果早在开始阶段就稳扎稳打，做好了合理的标识语义工作，那么便已经为未来做好了准备。科学家们很可能会把一项身份标识细分为多项更具体的标识。不妨想想生物的种属命名，这种方式在很长一段时间内都是行之有效的。人们对亚种的需求并没有让种属模式完全失效。我们可以建立这种结构，用于身份标识时可能会比开始阶段更为具体，但也不会完全过时。

CAS：是什么让 CAS 成为汇总这类生命科学细分权威结构的合适组织？

Jeff：成为某一领域的全球权威后，就会拥有一定的自我维持能力。如果纵观化学物质领域，没有人会质疑 CAS 登记号。该平台极具权威性。虽有其他物质合集，但 CAS 的组织定位与大多数其他组织并不相同。作为美国化学会的分支机构，我们的使命不仅仅是盈利，更是促进科学发展。我们拥有人才、专业知识和空间来处理此类生命科学数据，能够采用与 CAS 登记号相同的方式进行整理。如果这个项目完成后，CAS 未能成为蛋白质的权威平台，那就是我们未竟全功。这便是我们要做的工作。

Mark：在生命科学领域，人们普遍希望就一套有意义的身份标识达成一致，我们已在小分子化学领域解决了这一问题。 目前生命科学家们正在寻找一套明确的身份标识，并定义它们之间的关系，从而围绕这一结构来整理数据。我们正在涉足这种复杂性，为混乱带来秩序。在这方面取得足够进展后，人们就会接受我们掌握了大多数人关心的所有蛋白质，并以大多数人能利用的方式进行讨论。当人们在我们的合集中找不到所需蛋白质时，他们会提醒我们，让我们添加该种蛋白质，而不是自行建立完全独立的数据库。这就是我们的目标：不仅仅是构建一个权威的数据合集，更要成为生命科学领域的权威。

CAS：你们当前开展的工作与现有的那些有何不同？

Mark：在很多科学领域，人们会采取适合自身情况的方式，在本地层面解决自己或同事面临的问题。他们创建相应的数据库，其中包含了所关心物质的身份标识，以能够理解的方式进行描述，并带有相关信息。与此同时，在稍有重叠的领域从事相同或不同工作的人，他们则会选择不同的方式来描述这些身份标识，并收集不同的信息。然后，我们开始看到一些项目将这些较小的领域联合起来，使所有这类从业者都能达成共识，并促进跨越边界的发现。因此，生命科学领域已经出现了这种情况，但还没有一种方法能将大量领域与一套统一的身份标识结合在一起。

我们的目标就是实现这样的平台：可以在此查询蛋白质靶标，尽管不知道该蛋白质属于三四种生物通路的组成部分，但当在该信息集中找到这一标识时，即可立即查看所有相关联系。此外，还可以了解到它是否被用作某种疾病状态或治疗结果的生物标志物。能够围绕一个身份标识汇集来自不同地方的所有信息，可以找到并加以利用，从而创造出以前无法获得的价值。

Jeff：现在有很多小规模组织都在汇总这一拼图的组成部分。疾病本体是存在的，Uniprot 试图整理蛋白质，NCBI 设有一项生物体数据库。尽管其中每一项本身都属于权威结构，但它们之间没有任何有效连接，必须四处找寻。我们致力于实现一套统一的数据集，可以在此查找所有生命科学领域的数据，这些数据相互连接、相互协调。为了做到这一点，我们必须采用 Uniprot、Ensemble 和 CAS REGISTRY 三方的蛋白质视图，并将其统一为单一视图和一套身份标识。但在这里，用户可以访问所有这些小型合集。一旦将其连接起来，效果能够超越各部分的总和，因为用户可以发现以前无法找到的信息。

Nicole：我们希望成为全球最全面的生命科学数据库。我们致力于解决客户遇到的各种问题和挑战，而他们如今正面临着对生命科学权威结构的需求。

CAS：当你们涉足这一领域时，是否遇到过其他现有数据库的阻碍？

Mark：不可能得到所有人的认可。 在某些时候，必须行使一些权力，做出一些选择。很难反对一些根深蒂固的事物，我们在执行过程中也会尽量避免这样做。我们不会说服每个人都开始使用与习惯不同的叫法，但我们希望以此为基础。

原则很简单：我们将与现有数据库保持一致。但在实践中，做出这些选择肯定会难上加难。如果两个数据库对同一物质有不同的表述，我们要么选择其中一个，要么选择新的术语，并尝试在二者的基础上加以改进。我知道这听起来非常困难，但我们觉得，实现这个难点正是我们要为这一领域增加的价值，也正是我们想要向客户所提供的内容。

Nicole：我们绝对不希望疏远那些使用现有数据库并从中发挥价值的人。 我们想做的是带来更多价值，并在现有基础上增加价值。我们尚未讨论其他标引人员的想法，还不确定他们有何感想！

Jeff：实际上，从事标引工作的科学家只占少数，所以在某种程度上来说，他们并不是我们需要关注的对象，因为我们的目标是帮助大多数人。我们听到很多科学家都表示，他们在获取所需数据时遇到了困难。

Nicole：正是如此！最近，我和某位科学家聊天，他创建了一个抗体信息数据库。他说，他这样做并不是因为想要整理抗体数据，而是因为需要抗体数据来运行预测模型。我认为很多科学家都面临这种情况，使得研究进程遭遇阻碍，而这正是我们计划解决的问题。

CAS：如果可以挥动魔杖解决权威结构的某个难题，那会是什么，又会有何影响？

Mark：我想解决的难题是让人们使用相同的词汇来表示相同的含义。如果能做到这一点，事情就简单多了。这项工作的重要组成部分就是利用科学家用来描述事物的词语，找到正确的身份标识，然后将这些词语与该标识联系起来。如果我们能缩小用词范围，让每个人都达成共识，即可跳过这个环节。

Jeff：我希望让更多人了解权威结构，拥有做出尝试的愿景和热情，以有效方式来创建这类结构。即使在支持权威结构的组织内部，我仍然花费了很多时间向人们解释为什么需要权威结构，以及有何价值。虽然为此进行倡导是有回报的，但这会让我有点分心，毕竟我最喜欢的工作是实际处理数据和进行构建。

生命科学领域创建权威结构的挑战与机遇

对话 CAS 专家 Nicole Stobart、Jeff Wilson 和 Mark Schmidt 。

CAS：您如何描述权威结构？

CAS：为什么权威结构对生命科学家如此重要？

CAS：您如何定义 CAS 的“标引”一词？

CAS：您认为权威结构在标引方面的优势是什么？

CAS：能否利用人工智能来帮助创建权威结构，或借助人工智能进行标引？

CAS：CAS 将如何定义和标识生物实体？

CAS：你们是利用结构还是功能来创建生命科学领域的这类身份标识？

CAS：随着时间推移和新研究的开展，生物功能也会发生变化，你们打算如何解决按功能定义的持久性问题？

CAS：是什么让 CAS 成为汇总这类生命科学细分权威结构的合适组织？

CAS：你们当前开展的工作与现有的那些有何不同？

CAS：当你们涉足这一领域时，是否遇到过其他现有数据库的阻碍？

CAS：如果可以挥动魔杖解决权威结构的某个难题，那会是什么，又会有何影响？

我们能否治愈亨廷顿病？...

研发洞察：对免疫肿瘤学的独特见解

免疫疗法与癌症的新兴趋势

生命科学领域创建权威结构的挑战与机遇

Share:

对话 CAS 专家 Nicole Stobart、Jeff Wilson 和 Mark Schmidt 。

CAS：您如何描述权威结构？

CAS：为什么权威结构对生命科学家如此重要？

CAS：您如何定义 CAS 的“标引”一词？

CAS：您认为权威结构在标引方面的优势是什么？

CAS：能否利用人工智能来帮助创建权威结构，或借助人工智能进行标引？

CAS：CAS 将如何定义和标识生物实体？

CAS：你们是利用结构还是功能来创建生命科学领域的这类身份标识？

CAS：随着时间推移和新研究的开展，生物功能也会发生变化，你们打算如何解决按功能定义的持久性问题？

CAS：是什么让 CAS 成为汇总这类生命科学细分权威结构的合适组织？

CAS：你们当前开展的工作与现有的那些有何不同？

CAS：当你们涉足这一领域时，是否遇到过其他现有数据库的阻碍？

CAS：如果可以挥动魔杖解决权威结构的某个难题，那会是什么，又会有何影响？

Related Insights

Share: