Gain new perspectives for faster progress directly to your inbox.
Entretien avec Iddo Friedberg, titulaire d'un doctorat, Professeur adjoint, Iowa State University
La prédiction de la fonction des protéines a nettement progressé au cours des dix dernières années, ce qui coïncide avec l'émergence de nouvelles méthodes informatiques d'apprentissage automatique et d'intelligence artificielle. Dans cet article, nous nous entretenons avec Iddo Friedberg, expert de la prédiction de la fonction des protéines et co-organisateur de l'expérience Critical Assessment of Function Annotation (CAFA) (Évaluation critique de l'annotation de la fonction), concernant la précision avec laquelle les modèles prédisent la fonction des protéines et les orientations futures qu'il envisage pour ce domaine.
CAS : Comment avez-vous commencé à vous intéresser à la prédiction de la fonction des protéines ?
Iddo : C'était au cours de mes études post-doctorales, lorsque je travaillais sur la bio-informatique structurelle. J'essayais de trouver un moyen différent de représenter la structure des protéines en utilisant des fragments ou une bibliothèque de fragments, et je commençais à établir le lien entre la structure et la fonction. J'ai commencé à me demander : « Quel est le lien entre la séquence et la structure d'une part, et la fonction d'autre part ? Comment mieux prédire la fonction des protéines à partir de leur séquence et de leur structure ? »
Différents moyens de prédire la fonction des protéines étaient en cours de développement à cette époque, et j'ai pensé qu'il serait intéressant de faire connaître ce sujet, mais je n'ai pas trouvé de conférence qui y soit spécifiquement consacrée. J'ai donc décidé d'en organiser une moi-même. C'était en 2005, une conférence satellite lors du congrès Intelligent Systems for Molecular Biology (ISMB) qui se tenait à Detroit. Par la suite, nous avons organisé notre propre conférence autonome à l'université de Californie à San Diego (UCSD) en 2006. Depuis lors, nous tenons cette conférence, la réunion de prédiction informatique automatisée de la fonction des protéines, dans le cadre de l'ISMB.
CAS : Quelle a été l'évolution du domaine de la prédiction automatisée de la fonction des protéines depuis vos débuts ?
Iddo : Nous constatons une amélioration incontestable au fil des années. En 2010, Predrag Radivojac, qui travaille aujourd'hui à l'université Northeastern, Sean D. Mooney, de l'université de Washington, et moi-même avons lancé la compétition CAFA pour prédire la fonction d'une protéine d'après sa séquence ou sa structure. L'idée générale était d'associer une séquence de protéines à un ensemble de termes d'ontologie qui décriraient sa fonction et de rechercher des moyens d'améliorer l'annotation informatisée de la fonction d'une protéine. En adoptant des approches et des méthodes de prédiction diverses au sein des soumissions au CAFA, cette compétition sert également d'expérience pour évaluer les méthodes de prédiction de la fonction des protéines à grande échelle.
Dans la modélisation, nous utilisons une mesure appelée score Fmax (moyenne harmonique maximale sur une courbe précision-rappel) pour décrire la précision avec laquelle un modèle prédit sur une échelle de 0 à 1, où 1 correspond à l'idéal. Dans le cadre de CAFA 1, nous avions constaté un score Fmax de l'ordre de ~0,5, peut-être légèrement supérieur, et aujourd'hui, avec CAFA 4, nous atteignons un score de ~0,7. Tout dépend de l'aspect ontologique : l'un des aspects est de ~0,7 et un autre est de ~0,4/0,5, mais cela progresse.
Grâce au soutien récent de Kaggle, CAFA 5 compte 1 675 équipes qui rivalisent pour prédire la fonction d'un ensemble de protéines. L'évaluation finale ne sera terminée qu'aux environs de janvier 2024, mais je peux vous dire que nous approchons un score Fmax moyen de ~0,65 pour les trois ontologies, ce qui signifie que quelqu'un a atteint ~0,8, me semble-t-il, dans l'aspect de la fonction moléculaire de la Gene Ontology.
Nous constatons également une expansion du type d'expertise nécessaire pour réaliser ces prédictions de manière fiable : les personnes qui se cachent derrière les algorithmes. Notre communauté CAFA comprend désormais des experts en bioinformatique, biologie expérimentale, biostructuration et bio-ontologies. Nous travaillons tous ensemble à l'amélioration de notre gestion de la multitude de données auxquelles nous avons désormais accès.
CAS : Certaines approches de la prédiction de la fonction des protéines sont-elles plus efficaces que d'autres ?
Iddo : J'ai désormais une bonne idée de ce qui fonctionne bien d'après la littérature et il y a eu une sorte de basculement. Ce qui fonctionnait bien dans le passé pour prédire l'aspect fonction moléculaire, c'était le transfert d'homologie. Plus votre méthode est sensible pour détecter les homologues distants, mieux elle fonctionne, et si vous pouvez y ajouter des informations structurelles, c'est encore mieux, car la structure va beaucoup plus loin dans l'évolution que la séquence. Ces modèles étaient relativement simples à appliquer, mais déjà à cette époque, en coulisses, on commençait à utiliser de plus en plus l'apprentissage machine.
Au moment de CAFA 3 et de CAFA 4, nous avions des personnes qui représentaient les protéines et les séquences protéiques comme des « embeddings » pour prédire la fonction. Les « embeddings » sont une représentation multidimensionnelle des données qui ont transformé le paysage. Dans les prédictions classiques, les protéines sont représentées sous forme de chaînes de caractères, et le modèle recherche les similitudes entre ces chaînes (séquences protéiques). Avec les « embeddings », la prédiction tient compte du contexte environnant de chaque partie de la protéine en utilisant un modèle de style Word2Vec appelé ProtVec. Ces types de représentation sont incroyablement sensibles et leur pouvoir prédictif est très élevé. Nous pourrions trouver autre chose, mais actuellement, je pense que les gens obtiennent de très bons résultats en utilisant les « embeddings ».
CAS : À mesure que les prédictions de la fonction moléculaire s'améliorent, dans quelle mesure peut-on prédire les processus biologiques et les composants cellulaires ?
Iddo : Au cours des premiers CAFA, nous constations des scores plus faibles lorsqu'il s'agissait de tenter de prédire le processus biologique : il était inférieur aux scores de prédiction de la fonction moléculaire obtenus au cours de tous les CAFA. Imaginons que vous savez que telle protéine est une kinase et qu'elle participe à l'apoptose chez la souris. Vous pourriez demander : « Produit-elle le même effet chez l'être humain ? » La souris et l'humain sont probablement suffisamment proches pour que l'on dise : « Oui, le résultat sera le même. » Mais qu'en est-il des humains et de la mouche drosophile ? Ou de la levure ? C'est là que le transfert d'homologie peut échouer, car plus nous sommes éloignés sur le plan de l'évolution, plus les différences sont nombreuses.
Nous constatons une amélioration sur ce plan. Nous avons notamment tenté de demander aux prédicteurs de choisir parmi une série de mots clés pour décrire leur méthode de prédiction. Nous avons constaté par exemple que des choses telles que des modèles Markov cachés et des recherches d'homologie distante caractérisent les principales méthodes de prédiction de la fonction moléculaire. Toutefois, pour les processus biologiques, les principales méthodes sont l'exploitation des textes publiés dans les revues et le contexte génomique. Leurs modes de prédiction sont donc très différents.
La prédiction par composant cellulaire ne fonctionne pas si bien et nous devons en examiner les raisons. Tout d'abord, la structure de l'ontologie elle-même, l'ontologie des composants cellulaires, est difficile à utiliser. Si nous imaginons le graphique de l'ontologie de la fonction moléculaire comme un arbre et l'ontologie du processus biologique comme un graphique acyclique net géré par une hiérarchie, alors le composant cellulaire ressemble à un buisson. La structure est un peu différente et nous ne disposons pas actuellement d'un bon moyen de la décrire. Elle est également moins populaire parmi les prédicteurs de fonction. Je pense que bien souvent, ils considèrent la prédiction du composant cellulaire comme ne possédant pas le même prestige que la prédiction de la fonction moléculaire ou du processus biologique.
CAS : Quels sont, selon vous, les principaux goulets d'étranglement dans ce domaine ?
Iddo : Nous avons sans aucun doute besoin de plus - plus de puissance de calcul, plus d'idées -, et nous devons étudier davantage de protéines. Toute l'idée de représenter la fonction sous forme d'ontologie est différente, par exemple, de la représentation de la structure sous forme de billes et d'un espace en 3D. Avec la structure, on pourrait discuter du nombre de billes nécessaires et de leur précision future, mais c'est quelque chose de tangible. Le terme ontologie est issu de la philosophie, et il s'agit presque d'une représentation subjective de la réalité. Tout change au fil du temps, aussi bien la manière dont nous appréhendons la nature et les efforts de recherche sur lesquels nous nous concentrons.
Au CAFA, nous avons eu un groupe qui a réellement déclaré : « Ne cherchons pas à prédire la fonction des protéines, mais plutôt à prédire ce que les biostructurateurs feront ensuite. » Ils ont prédit quelles fonctions figureraient dans les données de validation des biostructurateurs au cours de cette édition du CAFA, quelles fonctions ils structuraient en priorité. Ils ne disposaient pas d'une méthode parmi les 10 meilleures, mais ils ne se sont pas mal débrouillés malgré tout. Il est impossible de prédire quelque chose qui n'a pas encore été vérifié de manière expérimentale d'une manière ou d'une autre, puis entré dans le jeu de données par un structurateur. C'est pourquoi ce qui est conservé est vraiment important.
CAS : L'un des principaux goulets d'étranglement ne concerne donc pas l'informatique, mais plutôt les travaux de laboratoire qui sont réalisés et publiés ?
Iddo : Ce sont les expériences, mais aussi la manière dont elles sont publiées : pourquoi ne pas publier directement les résultats sous la forme d'ontologies ? Si vous découvrez une nouvelle séquence protéique, lorsque vous rédigez l'article, vous devez déposer la séquence dans un référentiel tel que GenBank. Ou si vous découvrez une nouvelle structure protéique, vous déposerez la structure dans la banque de données des protéines (Protein Data Bank), et il existe des règles très strictes quant à la représentation de la séquence et de la structure lorsqu'on les dépose. Il devrait également exister des directives concernant la représentation de votre fonction protéique sous forme d'ontologie, et je pense que les chercheurs devraient savoir comment procéder.
Les biostructurateurs déclarent à juste titre : « Non, les chercheurs ne devraient pas faire ça. Ils n'ont aucune idée de la manière d'utiliser les ontologies. » Toutefois, c'est bien au niveau de la biostructuration que se situe aujourd'hui le goulet d'étranglement. On distingue deux camps ici : l'un affirme que seuls les biostructurateurs devraient être chargés de ce travail, car ils savent comment procéder et l'autre déclare que chacun devrait pouvoir le faire, mais que cela risquerait de provoquer des erreurs d'annotation. Franchement, je ne vois pas vraiment comment résoudre ce problème. Certains disent qu'une meilleure formation des chercheurs à l'utilisation des ontologies pourrait être utile, mais les biostructurateurs comprennent beaucoup mieux la sélection des termes d'ontologie appropriés et les relations entre eux.
CAS : Pensez-vous que les récentes avancées dans les modèles de traitement du langage naturel (TLN) pourraient être utilisées dans la biostructuration ?
Iddo : Je ne vois pas cela arriver dans un avenir proche, je pense qu'il nous faudrait plus qu'un grand moteur de langage pour procéder correctement. Les règles sont complexes : c'est pourquoi nous confions ce travail à des humains. Les humains sont très efficaces pour réaliser des tâches complexes, et je pense que celles-ci sont trop complexes pour le TLN. Un autre problème tient au fait que parfois, les ontologies sont difficiles à associer et qu'on ne dispose pas toujours des termes d'ontologie adéquats, en particulier pour les fonctions récemment découvertes, et nous devons alors créer de nouveaux termes et les placer correctement dans l'ontologie appropriée.
Et puis il y a le goulet d'étranglement du haut débit. Les expériences à haut débit génèrent beaucoup de données, mais elles ne génèrent que celles qui sont concernées par cet essai en particulier. Cela signifie que les données ont souvent une faible teneur en informations. Nous avons examiné ce problème en 2013 et en avons conclu que les bases de données de protéines annotées sont extrêmement déséquilibrées au niveau des résultats des expériences à haut débit.
Par exemple, nous avons considéré une série d'articles publiés à la fin des années 2000, portant sur le développement embryonnaire et C. elegans. Il existait des analyses génomiques complètes à consulter au sujet des mécanismes du développement embryonnaire, mais très peu d'autres données expérimentales portaient sur C. elegans à cette époque. Par conséquent, à partir de ces seules données, le modèle en conclurait que C. elegans assure uniquement le développement embryonnaire parce que c'est la seule chose qu'indiquent ces données. Ce type de biais provenant des expériences à haut débit représente un problème et sans intervention humaine, ils peuvent donner au modèle une vision très biaisée.
CAS : Quelles sont actuellement selon vous les opportunités majeures dans la prédiction de la fonction des protéines ?
Iddo : Je pense que l'apprentissage automatique fera sans aucun doute une grande différence et que nous découvrirons aussi des représentations différentes des séquences et des structures protéiques. Un goulet d'étranglement subsiste dans notre utilisation de l'ontologie, de sorte que certains évitent complètement son utilisation et se contentent de déclarer : « Ceci est un ensemble homogène. C'est une fonction, en ce qui me concerne. » La disponibilité d'AlphaFold et d'EMSFold pour obtenir des informations structurelles prédites nous aidera beaucoup.
Nous avons également besoin d'un effort délibéré de la part des organismes de financement pour générer des données plus valides, de haute qualité et riches en informations. Nous devrions recourir à moins de subventions de la part des grands consortiums - ce qui, en réalité, équivaut un peu à me tirer une balle dans le pied - et laisser davantage de petites et moyennes subventions s'épanouir pour attirer des post-doctorants et des étudiants afin de caractériser des fonctions spécifiques et de créer plus de diversité dans l'écosystème scientifique.
CAS : Si vous disposiez d'une baguette magique et pouviez résoudre un problème dans votre domaine, lequel choisiriez-vous ?
Iddo : La possibilité de structurer les documents automatiquement et avec précision et d'intégrer toutes ces informations à une représentation informatique qui resterait valide à long terme. Mais comme je l'ai dit auparavant, il existe actuellement une bonne raison de faire confiance aux humains pour réaliser ce travail. Je ne suis même pas convaincu que l'ontologie des gènes ou que toute ontologie soit la seule représentation valide à long terme, mais je n'imagine pas de meilleure solution pour le moment. C'est difficile, car notre représentation des choses à l'aide d'ontologies constitue un goulet d'étranglement, mais encore une fois, cela revient presque à dire que le langage humain est un goulet d'étranglement. Toutefois, nous entrons là dans le domaine de la philosophie et je ne suis pas qualifié pour en parler !