Desafíos y oportunidades de la creación de sistemas de autoridades para las ciencias médicas y biológicas

CAS Science Team

Los expertos en datos de CAS: Mark Schmidt, Jeff Wilson y Nicole Stobart
Los expertos en datos de CAS: Mark Schmidt, Jeff Wilson y Nicole Stobart

Una conversación con Nicole Stobart, Jeff Wilson y Mark Schmidt, de CAS

CAS lleva casi cien años usando los identificadores y sistemas de autoridades en el sector químico como pilar de su liderazgo mundial en el ámbito de la selección y la indexación. Ahora, nuestro equipo de ciencias médicas y biológicas está intentando crear las mismas herramientas de indexación para un nuevo sector. En este artículo, conversamos con Nicole Stobart, directora de prestaciones de ciencias médicas y biológicas; con el Dr. Jeff Wilson, director de ciencia de datos; y con Mark Schmidt, administrador principal de datos, sobre cómo están abriendo este nuevo camino con la ayuda de los sistemas de autoridades.

CAS: ¿Cómo describirían los sistemas de autoridades?

Jeff: Desde nuestro punto de vista, los sistemas de autoridades se centran esencialmente en la identidad. En cualquier dominio, ya sea el de las proteínas, las sustancias químicas o los ácidos nucleicos, necesitamos identificar las entidades de una forma única. En nuestra recopilación de química, contamos con CAS REGISTRY®, que es nuestra autoridad clásica. En CAS REGISTRY, queremos describir de una forma única diferentes sustancias químicas y tener la seguridad de que cada vez que encontremos lo mismo en nuestra selección se habrá identificado de la misma manera. Un ejemplo sencillo sería el del acetaminofén. Da igual si se denomina acetaminofén, Tylenol o paracetamol: todos están identificados como la misma sustancia química.

CAS: ¿Por qué son tan importantes los sistemas de autoridades para los científicos especializados en las ciencias médicas y biológicas?

Nicole: Nuestros sistemas de autoridades actuales funcionan bien para las moléculas pequeñas, pero ¿qué sucede con las proteínas o las enzimas? Sí, hay secuencias que se pueden asociar con ellas, pero ¿podemos decir que una secuencia con un cambio en un solo aminoácido es una entidad diferente? Somos conscientes de que los investigadores están teniendo dificultades con esto. Hay diferentes empresas y otras instituciones que han intentado organizarlo, pero nadie ha diseñado una organización totalmente fiable de estas sustancias biológicas. Cuando estábamos intentando suministrar información biológica a los clientes, descubrimos que no era posible sin organizarla previamente de una manera fiable. No se trata simplemente de recopilar montones y montones de datos, sino de organizarlos de una manera fiable y asegurarnos de que la forma en que los hemos organizado coincide con la organización que el resto del mundo desea.

Mark: En el espacio de las ciencias médicas y biológicas, estamos intentando identificar todos los elementos importantes y consensuar lo que son y cómo debemos llamarlos. Eso es en realidad una autoridad. En nuestro campo tradicional, si tengo una sustancia química puedo buscar en nuestra recopilación de esas sustancias y añadir nueva información sobre ella. Estamos intentando habilitar el mismo sistema en el ámbito de las ciencias médicas y biológicas, con cosas como las proteínas y las enzimas y para lograrlo debemos consensuar previamente sus identidades.

Jeff: Depende del investigador y de dónde esté, pero creo que los datos que presentamos pueden ser mucho más coherentes y fiables si describimos las cosas de una forma inequívoca. En el nivel más sencillo, se reduce a lo que siempre hemos hecho: organizar los datos para las búsquedas, de manera que cuando un usuario accede a nuestras herramientas de búsqueda, como CAS SciFindern, da igual si lo llama cáncer o sarcoma, porque conocemos la relación que existe entre esos términos. No le obligamos a buscar con todos esos términos diferentes para encontrar los datos. Nosotros nos encargamos de eso en segundo plano y él solo tiene que utilizar uno de los términos para encontrarlo todo.

Más allá de la búsqueda y la recuperación de información, una vez que se llega a implementaciones más sofisticadas, como los gráficos de conocimiento y el descubrimiento de relaciones importantes, es difícil crear un gráfico de conocimiento preciso si las entidades están dispersas en distintos nodos. Si hay una proteína que me interesa como diana, quiero que todos los datos de esa proteína estén almacenados en un único nodo y que otras entidades relacionadas estén en otros nodos. De lo contrario, se obtiene un gráfico de conocimiento terriblemente complejo con 15 nodos para una proteína, 12 para una enfermedad y 7 para la misma sustancia. Se crea un gráfico complejo que hace imposible deducir que hay básicamente 3 entidades y que están relacionadas de una forma predecible, porque esas identidades no se han definido de antemano.

CAS: ¿Cómo definirían la selección en CAS?

Mark: La gente suele usar el término "selección" para dos cosas diferentes. En primer lugar, está el proceso de ingesta y agrupación de los datos, que no solemos denominar "selección" en CAS. Por otra parte, está el tipo de selección con la que CAS tiene una larga experiencia, en la que los científicos estudian las fuentes de información originales y realizan un esfuerzo intelectual para extraer y mejorar esa información y ponerla a disposición de los usuarios de una forma más estructurada.

Jeff: La mayoría de nuestros científicos participan en la selección que ha descrito Mark, en la que extraen información esencial de fuentes primarias y la mejoran, la estandarizan y la conectan con otros datos. Pero hay otra capa más. Tenemos un grupo de personas independiente que selecciona las recopilaciones de autoridades analizando la nueva información a medida que llega y decidiendo: ¿esto es nuevo o no? ¿Cómo lo organizamos? ¿Qué relación hay entre estos elementos? ¿Qué terminología usamos? Esas decisiones no las toman las personas que se encargan de extraer información de la literatura primaria, sino las que seleccionan la recopilación de autoridades.

Mark: La clave del asunto es que la autoridad nunca está completa. Se añaden constantemente cosas nuevas que se acaban de descubrir o que despiertan interés y también se incorporan nuevos sinónimos para que siga siendo útil.

CAS: ¿Cuál dirían que es la ventaja de los sistemas de autoridades para la selección?

Jeff: Cuando se empieza a añadir identidades y terminología con sistemas de autoridades, se simplifica la identificación de nuevos elementos. Una vez que se han recopilado todos los nombres de una entidad, se puede crear un sistema de autoridades para verla y encontrar coincidencias al instante. Los sinónimos facilitan la selección.

Mark: Los sistemas de autoridades ayudan a organizar y agrupar toda la información en torno a ellos. Así, en el caso de las proteínas, es posible que no hayamos dado a la proteína el mismo nombre que el usuario, pero si sabemos qué nombre ha utilizado él y qué nombre hemos usado nosotros, podemos recopilar toda la información en la misma identidad, lo que nos permite agrupar toda la información.

CAS: ¿Se puede usar la IA para crear sistemas de autoridades o para realizar una selección con ellos?

Nicole: Para que la selección mediante IA sea viable, tenemos que asegurarnos de que hemos organizado e identificado de manera fiable lo que nos interesa. Es muy difícil confiar en cualquier clase de datos seleccionados automáticamente o mediante aprendizaje automático si no se ha organizado todo manualmente o si al menos no se ha analizado e identificado de una manera fiable.

Jeff: En lo tocante a la IA y a su relación con nuestros datos, tenemos una filosofía general, que es la de usar la tecnología más avanzada para mejorar las capacidades humanas. Contamos con centenares de científicos que llevan a cabo el trabajo de selección y, si se analiza lo que hacen hoy en día, se puede ver que es mucho más sofisticado que lo que hacían treinta años atrás. Cada vez que adoptamos una nueva tecnología, la usamos para ayudar a los humanos a hacer un trabajo más sofisticado. Usamos la tecnología del procesamiento en lenguaje natural y el aprendizaje automático para facilitar la identificación de documentos e informaciones, pero después todo eso se presenta a los expertos humanos, que toman la decisión final sobre lo que es importante o relevante y sobre la manera de organizarlo.

Una vez que hemos creado esos datos estructurados, hacemos lo mismo con la tecnología y las soluciones de IA en el otro extremo. Intentamos aprovechar la mejor tecnología para mostrar a los usuarios lo que han pedido y todo lo relacionado con eso. Podemos usar la tecnología predictiva para ayudar a planificar síntesis, contamos con motores de IA que ayudan a predecir la información ya existente sobre una técnica y se pueden realizar búsquedas booleanas para encontrar lo que se desea. Por tanto, tomamos nuestros datos, muy estructurados, y añadimos una capa de tecnología de IA, pero no usamos la IA para reemplazar a las personas.

CAS: ¿Cómo va a abordar CAS la definición e identificación de entidades biológicas?

Mark: Es aquí donde empezamos a hablar de semántica de la identidad. Es un problema muy complejo y difícil en las ciencias biológicas y médicas, y somos totalmente conscientes de eso, así que tratamos ese problema caso por caso cada día. Puede que el resultado no sea perfecto, pero vamos a hacer todo lo posible por conseguirlo. Vamos a tomar decisiones razonables y defendibles que resulten útiles en el espacio de las ciencias biológicas y médicas. No contentaremos a todo el mundo todo el tiempo, pero vamos a ser predecibles y claros para que la gente pueda usar nuestro sistema con confianza.

Cuando llegamos a preguntas como: “¿Una diferencia de un nucleótido es una nueva identidad o no?”, tenemos que tomar una decisión. Pero si tres polimorfismos diferentes de un solo nucleótido se consideran una identidad en lugar de tres, es imprescindible describir esas tres diferencias y asociarlas a la identidad única que presentamos. De modo que, incluso cuando decidimos que varias cosas diferentes forman parte de una misma identidad, toda la información se debe poder encontrar, debe estar conectada y debe ser accesible.

Inicialmente, elegiremos la semántica de la identidad y definiremos esas cosas. Después, a medida que vaya llegando nueva información, decidiremos: “¿Esto es una nueva identidad o se debe añadir a una identidad ya existente?”. Queremos usar tanta potencia de cálculo como podamos, pero, en todo momento, nuestra fuente de verdad definitiva para esas decisiones serán los humanos que mejor conozcan esa área. Así es como vamos a ofrecer un servicio fiable.

Jeff: Se trata de crear de antemano un conjunto de reglas claro, coherente y exhaustivo. A las personas que nunca han intentado definir entidades y agrupar información les parece muy arbitrario, pero nosotros hemos llegado a la conclusión de que cuando se organiza información es preferible pecar por exceso en lo tocante a la claridad y la coherencia. Se pueden encontrar matices en la información científica en casos concretos, pero implementar reglas para todo hace que las cosas terminen dispersándose y sean más difíciles de encontrar y recopilar. En lugar de eso, es mejor crear una regla que funcione para el 99 % de los casos. En el espacio químico, a veces recibimos correspondencia de un científico que nos dice: "Veo que han descrito esto de esta forma en CAS REGISTRY, pero es un error. Tengo datos que demuestran que es mejor describirlo de otra forma". Y nuestra respuesta suele ser que nuestro contenido está organizado para facilitar su descubrimiento. Y esa es la clave: la selección debe llevar de manera coherente a los datos que se están buscando, aunque al hacerlo pase por alto algunos matices científicos.

CAS: ¿Al crear estas identidades para las ciencias médicas y biológicas usan la estructura o la función?

Mark: Para muchas entidades biológicas, en especial las proteínas, es más la función que la estructura, pero en muchos casos usamos una combinación de las dos cosas. En el campo de la química, podemos crear fácilmente sistemas de autoridades basados exclusivamente en la estructura, pero no ocurre lo mismo en el ámbito de las ciencias médicas y biológicas. Tenemos que encontrar soluciones para varias autoridades diferentes: proteínas, anticuerpos, organismos, etc. Cada una de ellas se tiene que abordar de una forma distinta. Al entrar en el terreno de las ciencias médicas y biológicas, debemos alejarnos de las identidades basadas en estructuras, algo que nunca habíamos hecho.

CAS: ¿Cómo van a abordar la cuestión de la longevidad de la definición por función, teniendo en cuenta que la función biológica cambia con el tiempo y con las nuevas investigaciones?

Jeff: Siempre intentamos encontrar soluciones que sigan siendo válidas en el futuro. No creo que podamos predecir dónde estarán las ciencias médicas y biológicas dentro de diez años, pero si creamos sistemas coherentes, tendrán por definición cierto grado de flexibilidad y capacidad de ampliación. Para ello, es esencial reconocer cuándo se debe seguir usando el sistema actual y cuándo aparece una nueva rama de la ciencia que requiere un nuevo sistema. La gente no va a dejar de querer describir proteínas, pero podría surgir una nueva subcategoría de algún tipo que exigiera la creación de nuevos sistemas de autoridades.

Mark: Creo que si se hace un trabajo sólido para crear una semántica de identidad razonable al principio, el sistema está preparado para un futuro en el que es muy probable que los científicos subdividan una de las identidades en varias identidades más específicas. El sistema género-especie de nomenclatura de organismos, por ejemplo, funcionó muchísimo tiempo. La necesidad de subespecies no invalidó por completo el modelo género-especie. Creo que podemos definir sistemas que pueden llegar a tener identidades más específicas que las establecidas inicialmente, pero no quedarán totalmente desfasados.

CAS: ¿Qué convierte a CAS en la organización adecuada para agrupar estos sistemas de autoridades fragmentados en el campo de las ciencias médicas y biológicas?

Jeff: Se produce una especie de sostenibilidad automática cuando uno se convierte en una autoridad mundial en un campo. Si se piensa en las sustancias químicas, nadie duda de CAS REGISTRY. Es la referencia acreditada. Hay otras recopilaciones de sustancias, pero la mayoría de las organizaciones no tienen una posición en el sector comparable a la nuestra. Formamos parte de la American Chemical Society y nuestra misión no es únicamente ser rentables, es facilitar el avance de la ciencia. Contamos con el personal, los conocimientos y el espacio necesarios para estudiar los datos de las ciencias médicas y biológicas y organizarlos como lo hicimos con CAS REGISTRY. Creo que si no nos convertimos en el espacio acreditado para las proteínas cuando completemos este proyecto, no habremos cumplido nuestro propósito. Y vamos a cumplirlo.

Mark: El deseo de consenso sobre un conjunto de identidades útil para las ciencias médicas y biológicas es bastante universal y es un problema que ya hemos resuelto en el campo de la química de moléculas pequeñas. Los científicos especializados en ciencias médicas y biológicas necesitan que se defina un conjunto claro de identidades y de relaciones entre ellas para poder organizar los datos según esa estructura. Creemos que somos capaces de hacer frente a esa complejidad y poner orden en el caos. Cuando ese proceso esté suficientemente avanzado, los usuarios aceptarán que conocemos todas las proteínas que importan a la mayoría de los científicos y que hablamos de ellas de una manera que puede utilizar la mayoría de la gente. Cuando no encuentren su proteína en nuestra recopilación, nos lo harán saber para que podamos agregarla, en lugar de crear una base de datos independiente. Ese es nuestro objetivo: no solo crear una recopilación de sistemas de autoridades, sino convertirnos en una autoridad en el espacio de las ciencias médicas y biológicas.

CAS: ¿En qué se diferencia lo que están haciendo de lo que ya se ha hecho?

Mark: Creo que, en muchos espacios científicos, los investigadores resuelven un problema para ellos y para sus colegas, localmente y de una forma que les resulta útil a ellos. Crean una base de datos que contiene las identidades de las cosas que les importan, descritas de una manera que entienden, junto con información sobre ellas. Mientras tanto, en un área con cierto solapamiento, alguien que trabaja en un tema con elementos parecidos y elementos diferentes elige otras formas de hablar de esas identidades y reúne otra información. A continuación, empezamos a ver proyectos que combinan algunos de esos espacios más pequeños para armonizar el trabajo de toda esa gente y facilitar el descubrimiento más allá de los límites de los distintos campos. Eso ya está ocurriendo en las ciencias médicas y biológicas, pero no se ha puesto en marcha una estrategia para agrupar una buena parte de esa información en un conjunto unificado de identidades.

El objetivo es llegar a un lugar en el que un usuario pueda introducir la proteína que le interesa sin saber que forma parte de tres o cuatro vías biológicas y, al encontrar esa identidad en este conjunto de información, vea todas esas conexiones. Además, podría descubrir que se usa como biomarcador para un estado de una enfermedad o un resultado de un tratamiento. Poder agrupar toda la información de diferentes lugares en torno a una única identidad que se puede encontrar y utilizar crea un valor que en el pasado no estaba a nuestro alcance.

Jeff: Hay muchas organizaciones pequeñas que resuelven una parte del rompecabezas. La ontología de enfermedades ya existe, Uniprot intenta organizar las proteínas y NCBI dispone de una base de datos de organismos. Cada uno de ellos es un sistema de autoridades en sí mismo, pero no están conectados de ninguna forma útil, de modo que hay que buscar en distintos sitios. Nosotros queremos crear un conjunto de datos unificado que permita encontrar todos los datos de las ciencias médicas y biológicas conectados y armonizados. Para hacerlo, debemos tomar el punto de vista de la proteína de Uniprot, el de Ensemble y el de CAS REGISTRY y unificar todo eso en un único punto de vista y un conjunto único de identidades. Pero, a partir de ahí, volveríamos a tener acceso a todas esas recopilaciones más pequeñas. Una vez conectadas, el resultado es mayor que la suma de las partes porque revela cosas que antes no se podían encontrar.

Nicole: Queremos convertirnos en la base de datos de ciencias médicas y biológicas más exhaustiva del mundo. Queremos resolver los problemas y desafíos a los que se enfrentan nuestros clientes, que ahora mismo necesitan sistemas de autoridades en el campo de las ciencias médicas y biológicas.

CAS: ¿Ha habido alguna reacción negativa de las otras bases de datos al entrar en este espacio?

Mark: Es imposible estar de acuerdo con todo el mundo. En algún momento hay que ejercer cierta autoridad y tomar algunas decisiones. Es difícil discrepar de algo bien establecido y consolidado e intentaremos no hacerlo en el proceso. No vamos a convencer a todo el mundo de que debe empezar a llamar las cosas de otro modo, pero queremos ampliar la información existente.

El principio es sencillo: armonizaremos nuestra información con las bases de datos que ya existen. Pero, en la práctica, tomar esas decisiones es mucho más difícil. Si dos bases de datos usan palabras distintas para la misma cosa, podemos elegir una u otra, u optar por algo nuevo y tratar de mejorar las dos opciones. Sé que parece muy difícil, pero creemos que la dificultad para conseguirlo es precisamente el valor que vamos a aportar al espacio y lo que queremos ofrecer a los clientes.

Nicole: Desde luego, no queremos contrariar a las personas que usan otras bases de datos y encuentran valor en ellas. Lo que pretendemos es añadir más valor y ampliar lo que ya existe. Todavía no hemos hablado de lo que piensan de esto otros seleccionadores, así que habrá que averiguarlo.

Jeff: Los científicos que se dedican a la selección son, en realidad, una minoría, así que en cierto sentido no tenemos que preocuparnos por ellos, dado que nuestro objetivo es ayudar a la mayoría.