Défis et opportunités de la création de modèles d'autorité pour les sciences de la vie

CAS Science Team

Les experts des données de CAS, Mark Schmidt, Jeff Wilson et Nicole Stobart
Les experts des données de CAS, Mark Schmidt, Jeff Wilson et Nicole Stobart

Entretien avec Nicole Stobart, Jeff Wilson et Mark Schmidt de CAS

Les modèles d'autorité et les identifiants sont utilisés par CAS dans le secteur de la chimie depuis près d'un siècle et constituent la pierre angulaire de notre structuration et de notre indexation de pointe. Notre équipe des sciences de la vie cherche aujourd'hui à créer les mêmes outils d'indexation pour un nouveau secteur. Dans cet article, nous nous entretenons avec Nicole Stobart, Directrice en chef des capacités des Sciences de la vie ; Jeff Wilson, titulaire d'un doctorat, Responsable en chef de la science des données ; et Mark Schmidt, Intendant principal des données, au sujet de la création de cette nouvelle voie en utilisant des modèles d'autorité.

CAS : Comment décririez-vous les modèles d'autorité ?

Jeff : De notre point de vue, les modèles d'autorité se concentrent essentiellement sur l'identité. Quel que soit le domaine, qu'il s'agisse des protéines, des substances chimiques ou des acides nucléiques, nous devons être en mesure d'identifier les entités de manière unique. Historiquement, dans notre collection de chimie, nous avons CAS REGISTRY®, qui constitue notre autorité classique. Dans le REGISTRE CAS, nous souhaitons décrire de manière unique différents produits chimiques et savoir que chaque fois que nous rencontrons le même produit dans notre structuration, il est identifié de cette manière. Un exemple simple est celui de l'acétaminophène. Qu'on l'appelle acétaminophène, Tylénol ou paracétamol, il est identifié comme un seul et même produit chimique.

CAS : Pourquoi les modèles d'autorité sont-ils si importants pour les chercheurs en sciences de la vie ?

Nicole : Nos modèles d'autorité actuels fonctionnent bien pour les petites molécules, mais qu'en est-il des protéines ou des enzymes ? Oui, certaines séquences peuvent y être associées, mais une séquence contenant un changement d'acide aminé constitue-t-elle une autre entité ? Nous sommes conscients du fait que les chercheurs rencontrent des difficultés sur ce point. Différentes entreprises et autres organisations ont tenté de structurer ces éléments, mais personne n'a réussi une organisation de ces substances biologiques qui ferait vraiment autorité. Lorsque nous avons tenté d'apporter des informations biologiques aux clients, nous avons constaté que cela n'était pas possible sans une organisation préalable faisant autorité. Il ne s'agit pas seulement de collecter des quantités énormes de données, il faut aussi les organiser de façon indiscutable et s'assurer que la manière dont nous les organisons est conforme aux attentes du reste du monde.

Mark : Dans l'univers des sciences de la vie, nous nous efforçons d'identifier tous les éléments importants et de nous mettre d'accord sur leur nature et sur leur nom : c'est ce que l'on appelle une autorité. Dans notre activité traditionnelle, si nous avons une substance chimique, je peux consulter notre collection de ces substances et ajouter de nouvelles informations au sujet de celle-ci. Nous essayons de procéder de la même manière avec les sciences de la vie, des choses comme les protéines et les enzymes et pour ce faire, nous devons d'abord convenir de leur identité.

Jeff : Tout dépend du chercheur et du stade de son travail, mais je pense que nous pourrions être beaucoup plus cohérents et nettement plus fiables dans les données que nous présentons si nous souhaitons décrire les éléments sans la moindre ambiguïté. Au niveau le plus simple, tout revient à ce que nous avons toujours fait : organiser des données pour la recherche, afin que lorsque vous utilisez nos outils de recherche tels que CAS SciFindern, quel que soit le nom que vous utilisez, cancer ou sarcome, nous connaissions le lien entre ces termes. Nous ne vous obligeons pas à procéder à une recherche avec tous ces termes différents pour trouver les données, nous gérons cela en arrière-plan et vous pouvez utiliser un seul de ces termes pour trouver toutes les informations.

Au-delà de la recherche et de la récupération, une fois que vous accédez à des implémentations plus poussées comme les graphes de connaissances et que vous découvrez des relations importantes, il est difficile de créer un graphe de connaissances précis si vos entités sont réparties sur plusieurs nœuds. Si je m'intéresse à une protéine en tant que cible, je veux que toutes ses données soient stockées dans ce seul nœud, puis, que les autres entités liées soient placées sur des nœuds individuels. Dans le cas contraire, on obtient ce graphe de connaissances d'une complexité désespérante où vous avez 15 nœuds pour telle protéine, 12 pour telle maladie et 7 pour la même substance. Vous créez ce graphe complexe et vous ignorez qu'il comporte en réalité 3 entités de base, reliées entre elles de manière prévisible, car ces identités n'ont pas été définies en amont.

CAS : Comment définiriez-vous la structuration chez CAS ?

Mark : Les gens ont tendance à donner deux définitions différentes de la structuration. Tout d'abord, il s'agit de l'ingestion et de l'agrégation de données, que nous ne qualifions pas habituellement de structuration chez CAS. Ensuite, il y a le type de structuration que CAS utilise depuis très longtemps, dans lequel les scientifiques recherchent des sources d'information d'origine et effectuent un travail intellectuel pour extraire et améliorer ces informations et les rendre disponibles d'une manière plus structurée.

Jeff : La plupart de nos scientifiques effectuent la structuration décrite par Mark, lors de laquelle ils extraient des informations clés des sources principales, puis les améliorent, les standardisent et les connectent à d'autres points de données, mais cela va plus loin. Nous avons un autre groupe de personnes qui structurent eux-mêmes les collections d'autorité en examinant les nouvelles informations à mesure qu'elles arrivent et qui décident s'il s'agit d'un élément nouveau. Ce n'est pas le cas ? Comment l'organiser ? Quelle est sa relation avec les autres informations ? Quelle terminologie devons-nous utiliser ? Nous ne disposons pas de personnes qui extraient les informations de la littérature principale en prenant ces décisions. Nos collaborateurs structurent la collection d'autorité.

Mark : Le point clé tient au fait que l'autorité n'est jamais établie. Vous ajoutez constamment de nouveaux éléments récemment découverts ou dont l'intérêt vient d'être souligné et vous ajoutez aussi de nouveaux synonymes pour que les informations restent utiles.

CAS : Quel est selon vous l'avantage des modèles d'autorité en termes de structuration ?

Jeff : Une fois qu'on commence à agréger les identités et la terminologie avec des modèles d'autorité, il devient plus simple d'identifier de nouvelles instances. Après avoir collecté tous les noms correspondant à votre entité, vous pouvez créer un modèle d'autorité pour le voir instantanément et le mettre en correspondance. Les synonymes facilitent la structuration.

Mark : Les modèles d'autorité nous aident à organiser et à agréger toutes les informations autour d'eux. Par conséquent, dans le cas des protéines, nous pourrions ne pas donner à cette protéine exactement le même nom que vous, mais si nous savons quel nom vous lui donnez et quel nom nous lui donnons, nous sommes en mesure de compiler toutes les informations sous la même identité : cela nous permet de rassembler toutes les informations en un même lieu.

CAS : Peut-on utiliser l'IA pour créer des modèles d'autorité ou structurer les informations autour d'eux ?

Nicole : Nous devons veiller à organiser avec autorité et à identifier tous les éléments concernés pour procéder à une structuration avec l'IA. Il est vraiment difficile de s'appuyer sur tout type d'apprentissage machine ou de données structurées par des machines si elles n'ont pas toutes été organisées manuellement ou au moins considérées et identifiées d'une manière faisant autorité.

Jeff : Nous avons une philosophie générale au sujet de l'IA et de ses relations avec nos données dans la mesure où nous exploitons la technologie la plus avancée possible pour renforcer les capacités humaines. Nous avons des centaines de scientifiques ici qui effectuent le travail de structuration et si vous examinez leurs tâches actuelles, elles sont beaucoup plus affinées qu'elles ne l'étaient il y a 30 ans. Chaque fois que nous adoptons une nouvelle technologie, nous l'utilisons pour permettre aux humains de réaliser un travail plus approfondi. Nous utilisons la technologie dans le traitement du langage naturel et l'apprentissage machine pour contribuer à identifier les documents et les informations, mais tout cela est ensuite présenté à des humains, lesquels prennent la décision finale quant à ce qui est important ou pertinent et à la manière d'organiser les informations.

Une fois ces données structurées créées, nous procédons de la même manière avec la technologie et les solutions d'IA à l'autre extrémité. Nous nous efforçons d'exploiter la meilleure technologie et de vous présenter les informations que vous avez demandées et les éléments qui y sont liés. Nous pouvons utiliser la technologie prédictive pour vous aider à planifier des synthèses, nous disposons de moteurs d'IA qui permettent de prédire quelle sera la technologie antérieure et vous pouvez procéder à des recherches de type booléen pour trouver des éléments. Nous utilisons donc nos données hautement structurées et y superposons la technologie d'IA : nous n'utilisons pas l'IA pour remplacer les personnes.

CAS : Comment CAS va-t-il aborder la définition et l'identification des entités biologiques ?

Mark : C'est là que nous commençons à parler de sémantique identitaire. C'est un problème vraiment difficile et complexe des sciences de la vie et nous en avons parfaitement conscience. Nous traitons ces questions au cas par cas chaque jour. Nous ne trouverons peut-être pas toujours la solution parfaite, mais nous ferons de notre mieux. Nous ferons des choix raisonnables et défendables, qui seront utiles aux personnes qui travaillent dans le domaine des sciences de la vie. Nous ne donnerons pas satisfaction à chacun systématiquement, mais nous serons prévisibles et clairs à ce sujet, de sorte que chacun pourra utiliser le système que nous proposons de manière fiable.

Lorsque nous recevons des questions telles que : « Une différence d'un nucléotide correspond-elle ou non à une nouvelle identité ? », c'est un choix que nous devons faire. Toutefois, si trois polymorphismes différents d'un seul nucléotide deviennent une identité au lieu de trois, nous devons absolument décrire ces trois différences et les relier à l'identité que nous présentons. Par conséquent, même si nous décidons que plusieurs éléments sont placés sous une identité, toutes les informations resteront détectables, connectées et accessibles.

Dans un premier temps, nous choisirons notre sémantique d'identité et la définirons, puis, à mesure que de nouvelles informations arriveront, nous déciderons s'il s'agit d'une nouvelle identité ou si elle vient s'ajouter à une identité existante. Nous souhaitons utiliser autant de puissance de calcul que possible, mais à tout moment, les humains qui connaissent le mieux le domaine concerné resteront notre source de vérité ultime. C'est ainsi que nous proposerons un service fiable.

Jeff : Vous souhaitez créer en amont un ensemble de règles clair, complet et cohérent. Pour les personnes qui n'ont pas tenté de définir des entités et d'agréger des informations, cela semble très arbitraire, mais on constate que lorsqu'on organise des informations, il est préférable de faire le choix de la clarté et de la cohérence. On peut trouver des nuances scientifiques dans des cas spécifiques, mais la mise en œuvre de règles générales provoque une dispersion des éléments et les rend plus difficiles à identifier et à collecter. Il est préférable de créer une règle qui fonctionne dans 99 % des cas. Dans le domaine de la chimie, il nous arrive de recevoir des correspondances d'un scientifique qui déclare : « Je vois que vous avez décrit cet élément dans le REGISTRE CAS et vous vous trompez, je possède des données qui indiquent qu'il serait mieux décrit d'une autre manière » et notre réponse habituelle explique que notre contenu est organisé autour de la détectabilité. C'est bien l'objectif : la structuration doit vous conduire de manière cohérente aux données que vous recherchez, même si elle manque certaines nuances spécifiques en chemin.

CAS : Utilisez-vous la structure ou la fonction pour créer ces identités pour les sciences de la vie ?

Mark : Pour de nombreuses entités biologiques, en particulier les protéines, nous privilégions la fonction à la structure, mais il s'agit souvent d'une combinaison des deux. En chimie, nous pouvons facilement créer des modèles d'autorité reposant entièrement sur la structure, mais il n'en va pas de même pour les sciences de la vie. Plusieurs autorités ont besoin d'explications : protéines, anticorps, organismes, etc. Chacune d'elles devra être abordée de manière unique. Nous devons nous écarter des simples identités basées sur des structures à mesure que nous évoluons dans les sciences de la vie d'une manière que nous n'abordions pas dans le passé.

CAS : Comment prévoyez-vous de gérer la longévité des définitions par fonction lorsque la fonction biologique change au fil du temps et des nouvelles recherches ?

Jeff : Nous nous efforçons toujours de préparer les éléments pour l'avenir et même si je ne pense pas qu'il soit possible de prédire quel sera l'état des sciences de la vie dans dix ans, en créant des modèles cohérents, nous y intégrerons une part de flexibilité et d'évolutivité. Pour ce faire, nous devons reconnaître les situations dans lesquelles il convient d'utiliser le modèle actuel et celles où une nouvelle branche de la science émerge et exige un nouveau modèle. Les gens souhaiteront toujours décrire les protéines, mais il peut arriver qu'une sous-catégorie quelconque surgisse et nécessite la création de nouveaux modèles d'autorité.

Mark : Je pense qu'en réalisant un travail solide de création d'une sémantique d'identité raisonnable dès le début, on peut se préparer à un avenir où il est très probable que les scientifiques subdiviseront l'une de nos identités en plusieurs identités plus précises. Si on réfléchit à la dénomination des organismes par genre et par espèce, cela a fonctionné pendant très longtemps. La nécessité de sous-espèces n'a pas complètement invalidé le modèle genre-espèce. Je pense que nous pouvons établir des modèles dans lesquels on pourrait devenir plus précis en termes d'identité qu'au moment de leur création, mais qui ne deviendront jamais complètement obsolètes.

CAS : Qu'est-ce qui fait de CAS l'organisation adéquate pour agréger ces modèles d'autorité des sciences de la vie fragmentés ?

Jeff : Une fois que l'on devient une autorité mondiale reconnue dans un domaine, cette qualité a tendance à se pérenniser. Si l'on considère les substances chimiques, personne n'a fait mieux que le REGISTRE CAS. C'est le référentiel qui fait autorité. Il existe d'autres collections de substances, mais nous sommes positionnés en tant qu'organisation d'une manière inégalable par rapport à la plupart des autres organisations. Nous sommes membres de l'American Chemical Society et notre mission n'est pas simplement d'être rentables, mais de favoriser la science. Nous disposons des personnes, de l'expertise et de l'espace nécessaire pour gérer ces données des sciences de la vie et les organiser de la même manière que nous l'avons fait avec le REGISTRE CAS. Je pense que la seule chose qui pourrait nous empêcher de devenir l'espace faisant autorité en termes de protéines lorsque ce projet sera terminé serait une défaillance de notre part. Nous allons maîtriser ce domaine.

Mark : Le souhait d'un accord sur un ensemble logique d'identités dans les sciences de la vie est assez universel et c'est un problème que nous avons déjà résolu dans la chimie des petites molécules. Les spécialistes des sciences de la vie sont en quête d'un ensemble clair d'identités et de relations à définir entre elles afin de leur permettre d'organiser les données autour de cette structure. Nous avons l'intention de nous attaquer à cette complexité et de rétablir l'ordre dans le chaos. Lorsque nous aurons suffisamment progressé sur ce point, les gens accepterons que nous connaissons toutes les protéines importantes pour la plupart d'entre eux et en parleront d'une manière qui sera exploitable par la plupart des chercheurs. S'ils ne trouvent pas leur protéine dans notre collection, ils attireront notre attention sur ce point et nous pourrons l'ajouter à notre liste au lieu de les contraindre à créer leur propre base de données entièrement distincte. Tel est notre but : pas seulement de disposer d'une collection de modèles d'autorité, mais de devenir une autorité dans l'univers des sciences de la vie.

CAS : En quoi vos actions sont-elles différentes de celles qui ont déjà été réalisées ?

Mark : Je pense que dans de nombreux espaces scientifiques, les gens résolvent un problème pour eux-mêmes et leurs collègues au niveau local, d'une manière qui leur convient. Ils créent une base de données regroupant les identités qui les intéressent, décrites d'une manière qu'ils comprennent et les informations les concernant. Dans le même temps, une personne évoluant dans un domaine légèrement superposé qui réalise certains des mêmes travaux et d'autres travaux différents choisit différentes manières de parler de ces identités et d'assembler les différentes informations. Puis, on commence à voir des projets qui réunissent certains de ces petits espaces pour faire en sorte que tous ces chercheurs soient au même niveau d'information et pour faciliter la recherche au-delà de ces limites. C'est déjà ce qui se produit dans les sciences de la vie, mais aucune approche n'a réuni un grand nombre de ces éléments dans une série d'entités qui les réunissent.

L'objectif est de parvenir à un stade où vous pourrez intégrer votre protéine cible, sans savoir qu'elle est membre de trois ou quatre parcours biologiques, mais où, lorsque vous aurez découvert cette identité dans cet ensemble d'informations, vous pourrez voir toutes ces connexions. En outre, vous pourriez aussi apprendre qu'elle est utilisée comme biomarqueur pour l'état d'une maladie ou le résultat d'un traitement. L'aptitude à agréger toutes les informations issues de différents lieux autour d'une seule et même identité, que vous pourrez alors détecter et utiliser, crée une valeur qui n'était pas accessible auparavant.

Jeff : De nombreuses petites organisations agrègent une pièce du puzzle. L'ontologie de la maladie existe, Uniprot tente d'organiser les protéines et NCBI dispose d'une base de données des organismes. Chacun d'entre eux est un modèle d'autorité en lui-même, mais ils ne sont reliés nulle part de manière utile : il faut savoir où les trouver et aller les chercher. Nous cherchons en réalité à unifier cet ensemble de données que vous pourrez consulter pour trouver toutes les données des différentes sciences de la vie connectées et harmonisées. Pour ce faire, nous devons adopter le point de vue d'Uniprot sur la protéine, le point de vue d'Ensemble sur la protéine et le point de vue du REGISTRE CAS sur la protéine et il nous faut harmoniser tout cela en une vue et un ensemble d'identités uniques. Toutefois, à partir de cela, vous pourrez remonter jusqu'à toutes ces collections plus petites. Une fois connectées, elles sont plus importantes que la somme de leurs parties, car elles révèlent des éléments qui étaient impossibles à trouver auparavant.

Nicole : Nous souhaitons que notre base de données devienne la plus importante au monde dans le domaine des sciences de la vie. Nous entendons résoudre les problèmes et les défis auxquels nos clients sont confrontés et ils font face à ce besoin de modèles d'autorité dans les sciences de la vie.

CAS : Avez-vous reçu des commentaires des autres bases de données existantes en évoluant dans cet espace ?

Mark : On ne peut pas être d'accord avec tout le monde. À un certain stade, il faut exercer une certaine autorité et faire des choix. Il est difficile de ne pas être d'accord avec des idées bien établies et enracinées et nous nous efforcerons de ne pas le faire. Nous ne convaincrons personne de commencer à utiliser un nom différent de l'appellation habituelle pour désigner un élément, mais nous souhaitons progresser en ce sens.

Le principe est simple : nous nous alignerons sur les bases de données existantes. Toutefois, dans la pratique, il est sans aucun doute difficile de faire de tels choix. Si deux bases de données utilisent des termes différents pour désigner une même chose, on peut choisir l'un ou l'autre ou trouver un nouveau terme et tenter d'améliorer les deux autres. Je sais que cela peut sembler très difficile, mais nous pensons que cette difficulté est précisément la valeur que nous ajouterons à l'espace et exactement ce que nous souhaitons apporter à nos clients.

Nicole : Nous ne voulons en aucun cas écarter les personnes qui utilisent des bases de données existantes et y trouvent de la valeur. Notre objectif est d'apporter plus de valeur encore et d'ajouter à ce qui existe déjà. Nous n'avons pas encore parlé de l'opinion des autres spécialistes de la structuration du contenu, il reste donc à déterminer ce qu'ils en pensent !

Jeff : En fait, seule une minorité de scientifiques participent à la structuration, de sorte que d'une certaine manière, ce ne sont pas d'eux que nous devons nous préoccuper, notre objectif étant d'aider la majorité. Et de nombreux scientifiques nous indiquent qu'ils ont du mal à accéder aux données dont ils ont besoin.

Nicole :Absolument ! J'ai parlé récemment à un scientifique qui a créé une base de données d'informations sur les anticorps. Il m'a dit qu'il l'avait fait non pas parce qu'il souhaitait organiser les données sur les anticorps, mais parce qu'il avait besoin de données sur les anticorps pour pouvoir utiliser ses modèles prédictifs. Je pense que c'est la situation dans laquelle se trouvent de nombreux scientifiques, et cela entrave la recherche. C'est le problème que nous aimerions résoudre.

CAS : Si vous disposiez d'une baguette magique et pouviez résoudre un problème concernant les modèles d'autorité, lequel choisiriez-vous et quel impact cela aurait-il ?

Mark : Le problème que je résoudrais consisterait à permettre à tout le monde d'utiliser les mêmes mots pour désigner les mêmes choses. Si nous parvenions simplement à cela, tout deviendrait bien plus facile. Cet exercice consiste en grande partie à reprendre les mots utilisés par les scientifiques pour décrire quelque chose, à trouver l'identité adéquate, puis à connecter les mots à cette identité. Si nous pouvions affiner le langage et mettre tout le monde d'accord, cet obstacle n'existerait plus.

Jeff : Pour moi, ce serait de permettre à plus de personnes de comprendre les modèles d'autorité et d'avoir une vision et une passion pour tenter de les organiser de manière plus utile. Même au sein d'une organisation qui soutient cette entreprise, je passe encore beaucoup de mon temps à expliquer aux gens pourquoi c'est nécessaire et la valeur que cela représente. Soutenir une telle entreprise est gratifiant, mais cela me distrait un peu de mon activité favorite, qui consiste en fait à travailler sur les données et à construire des choses.