Gain new perspectives for faster progress directly to your inbox.
Una conversación con el Dr. Iddo Friedberg, profesor titular de la Universidad Estatal de Iowa
La predicción de la función de las proteínas ha experimentado importantes avances a lo largo de la última década, coincidiendo con el auge de los nuevos métodos computacionales de aprendizaje automático e inteligencia artificial. En este artículo conversamos con Iddo Friedberg, experto en predicción de la función de las proteínas y coorganizador del experimento Critical Assessment of Function Annotation (CAFA), sobre la precisión con la que los modelos predicen la función de las proteínas y sobre el futuro de este campo.
CAS: ¿Cómo nació su interés por la predicción de la función de las proteínas?
Iddo: Fue durante mi etapa posdoctoral, cuando trabajaba en el campo de la bioinformática estructural. Estaba intentando encontrar una forma diferente de representar las estructuras de las proteínas usando fragmentos o una biblioteca de fragmentos, y estaba empezando a relacionar la estructura con la función. Comencé a preguntarme: "¿Qué relación tienen la secuencia y la estructura con la función? ¿Cómo podemos predecir mejor la función de la proteína a partir de la secuencia y la estructura?"
En aquella época se estaban desarrollando varias formas de predecir la función de las proteínas y pensé que estaría bien hablar con más gente sobre este tema, pero no conseguí encontrar ningún congreso en el que se tratase, así que decidí organizar uno. Tuvo lugar en el año 2005, como un congreso satélite del Intelligent Systems for Molecular Biology (ISMB) de Detroit, y después organizamos un congreso independiente en la Universidad de California, San Diego (UCSD) en 2006. Desde entonces, organizamos este congreso, el encuentro sobre predicción computacional automatizada de la función de las proteínas en el marco del ISMB.
CAS: ¿Cómo ha evolucionado el campo de la predicción automatizada de la función de las proteínas desde que comenzó a trabajar en él?
Iddo: Sin duda se han producido avances a lo largo de los años. En 2010, Predrag Radivojac, que ahora está en la Universidad Northeastern; Sean D. Mooney, de la Universidad de Washington, y yo iniciamos la competición CAFA para predecir la función de una proteína a partir de su secuencia o estructura. La idea general era asociar una secuencia de proteínas con un conjunto de términos ontológicos que describieran su función y buscar formas de mejorar la anotación computacional de la función de una proteína. Como las propuestas que participan en CAFA usan diferentes estrategias y métodos de predicción, la competición también sirve como experimento para evaluar los métodos de predicción de la función de las proteínas a gran escala.
En los modelos, usamos una métrica denominada puntuación Fmáx (la media armónica máxima de una curva PR) para describir la precisión de la predicción de un modelo en una escala de 0 a 1, en la que 1 es la precisión ideal. Con CAFA 1, obtuvimos una puntuación Fmáx de ~0,5, quizás un poco más, y ahora, con CAFA 4, ha llegado a ~0,7. Depende del aspecto de la ontología —uno de los aspectos es ~0,7 y el otro es ~0,4/0,5—, pero está mejorando.
Con la ayuda reciente de Kaggle, en CAFA 5 hay 1675 equipos compitiendo para predecir la función de un conjunto de proteínas. La evaluación final no estará completa hasta alrededor de enero de 2024, pero puedo adelantarle que nos estamos acercando a una Fmáx media de ~0,65 para las tres ontologías, lo que significa que alguien está llegando a ~0,8, creo, en el aspecto de la función molecular de Gene Ontology.
También estamos detectando una ampliación del tipo de conocimientos que las personas que están detrás de los algoritmos necesitan para hacer estas predicciones con fiabilidad. Ahora, nuestra comunidad CAFA incluye expertos en bioinformática, biología experimental, biocuración y bio-ontologías. Estamos trabajando juntos para mejorar la gestión de la enorme variedad de datos a los que tenemos acceso hoy en día.
CAS: ¿Algunas de las estrategias de predicción de la función de las proteínas están dando mejores resultados que otras?
Iddo: La bibliografía disponible me ha dado una idea de lo que funciona bien y he detectado un cambio. En el pasado, lo que funcionaba para predecir el aspecto de la función molecular era la transferencia por homología. Cuanto más sensible es un método para detectar homólogos remotos, mejor funciona. Si se puede añadir información estructural, aún mejor, porque, en lo tocante a la evolución, la estructura tiene un alcance muy superior al de la secuencia. Estos modelos eran relativamente fáciles de aplicar, pero ya entonces, entre bastidores, los investigadores estaban empezando a usar más aprendizaje automático.
Cuando llegaron CAFA 3 y CAFA 4, algunas personas se dedicaron a representar proteínas y secuencias de proteínas como embeddings o incrustaciones para predecir la función. Las incrustaciones son una representación multidimensional de los datos que ha cambiado el panorama. En las predicciones clásicas, las proteínas se representan como cadenas de caracteres y el modelo busca similitudes entre las cadenas (secuencias de proteínas). Con las incrustaciones, la predicción tiene en cuenta el contexto de cada parte de la proteína usando un modelo de tipo Word2Vec conocido como ProtVec. Estas clases de representaciones son increíblemente sensibles y tienen una capacidad predictiva muy alta. Es posible que encontremos otras opciones, pero, ahora mismo, creo que se están obteniendo unos resultados excelentes con las incrustaciones.
CAS: A medida que las predicciones de la función molecular mejoran, ¿cómo de bien podemos predecir los procesos biológicos y los componentes celulares?
Iddo: En los experimentos CAFA iniciales, obteníamos puntuaciones más bajas cuando intentábamos predecir procesos biológicos (la puntuación es inferior a la de las predicciones de funciones moleculares en todos los CAFA). Supongamos que tenemos claro que una proteína es una cinasa y sabemos que en un ratón participa en la apoptosis. Cabría preguntarse: “¿Hace lo mismo en los humanos?”. Un ratón y un humano son probablemente lo bastante similares para afirmar: “Sí, hace lo mismo”. ¿Pero qué pasa con los humanos y la Drosophila? ¿O la levadura? Es ahí donde puede fallar la transferencia por homología, porque cuanto más distancia evolutiva hay, más diferencias se ven.
Eso está mejorando. Una de las cosas que intentamos fue pedir a los responsables de las predicciones que eligieran entre un conjunto de palabras clave para describir su método de predicción. Descubrimos que cosas como los modelos de Markov ocultos y las búsquedas de homologías remotas estaban entre los principales métodos para predecir la función molecular. En cambio, para los procesos biológicos, los principales métodos eran la extracción de texto de artículos y el contexto genómico. Por tanto, estas predicciones se realizan de modos muy diferentes.
La predicción de componentes celulares no está funcionando tan bien y estamos intentando averiguar por qué. Un factor es que no es fácil trabajar con la estructura de la ontología propiamente dicha, la ontología de los componentes celulares. Si imaginamos el gráfico de la ontología de funciones moleculares como un árbol y la ontología de procesos biológicos como un gráfico acíclico ordenado y jerárquico, el componente celular sería equiparable a un matorral. La estructura es algo diferente y, por el momento, no tenemos una forma adecuada de describirla. También es menos popular entre quienes predicen funciones. Creo que suelen pensar que predecir componentes celulares no es tan prestigioso como predecir funciones moleculares o procesos biológicos.
CAS: ¿Cuáles son a su juicio los principales cuellos de botella en este campo?
Iddo: Sin duda, necesitamos más: más potencia de cálculo y más ideas, y es necesario estudiar más proteínas. La idea de representar la función como una ontología es diferente de, digamos, representar la estructura como canicas y espacio tridimensional. Con la estructura, podemos discutir sobre el número de canicas que necesitamos y la precisión que deben tener, pero se trata de algo tangible. “Ontología” es un término derivado de la filosofía y es prácticamente una representación subjetiva de la realidad. Cambia con el tiempo, tanto por nuestra forma de entender la naturaleza como por las prioridades de las iniciativas de investigación.
En CAFA, teníamos un grupo que decía: “No intentemos predecir la función de las proteínas, debemos intentar predecir lo que los biocuradores harán a continuación”. Predecían las funciones que estarían en los datos de validación de los biocuradores en esa ronda de CAFA, las funciones a las que habrían dado prioridad en su selección. Su método no estuvo entre los diez mejores, pero tampoco tuvo malos resultados. No podemos predecir algo que aún no se ha verificado de algún modo experimentalmente y lograr que un biocurador lo introduzca en su conjunto de datos, así que es esencial saber qué se está seleccionando.
CAS: En tal caso, uno de los principales cuellos de botellas no es computacional, sino el trabajo de laboratorio que se está haciendo y publicando.
Iddo: Son los experimentos, pero también la forma en que se publican. ¿Por qué no se publican los resultados directamente como ontologías? Si alguien descubre una nueva secuencia de proteínas, al escribir el artículo está obligado a depositar la secuencia en un repositorio como GenBank. O si descubre una nueva estructura de proteínas, la depositará en el Protein Data Bank, y hay unas reglas muy estrictas sobre la forma de representar la secuencia y la estructura al depositarlas. También debería haber directrices sobre la manera de representar la función de la proteína como una ontología, y yo creo que los investigadores deberían saber hacerlo.
Por motivos comprensibles, los biocuradores dicen: “No, los investigadores no deben hacerlo. No saben usar ontologías”. Pero es en la biocuración donde se produce ahora mismo el cuello de botella. Con respecto a esto hay dos posturas: una que defiende que solo los biocuradores deben hacer el trabajo porque saben hacerlo y otra que cree que todo el mundo debería hacerlo, aunque eso podría introducir errores de anotación. Yo no tengo claro cómo se puede resolver. Algunas personas creen que formar mejor a los investigadores en el uso de ontologías podría ayudar, pero los biocuradores están mejor preparados para seleccionar los términos ontológicos apropiados y las relaciones correctas.
CAS: ¿Cree que los avances recientes en los modelos de procesamiento en lenguaje natural (NLP) se pueden aplicar en la biocuración?
Iddo: No creo que vaya a suceder ya. En mi opinión, un modelo de lenguaje grande no basta para hacerlo correctamente. Las reglas son complejas, por eso necesitamos humanos para hacerlo. A los humanos se les dan muy bien las tareas complejas, pero creo que este proceso es demasiado complejo para los NLP. Otro problema es que a veces las ontologías son difíciles de asociar y que no siempre se tienen los términos oncológicos correctos, especialmente para las funciones recién descubiertas, de manera que hay que crear nuevos términos e insertarlos en la ubicación correcta de la ontología apropiada.
Y también tenemos el cuello de botella del alto rendimiento. Los experimentos de alto rendimiento generan muchos datos, pero generan aquello para lo que el análisis es útil. Eso significa que los datos suelen contener poca información. Lo estudiamos en 2013 y llegamos a la conclusión de que las bases de datos de proteínas anotadas están muy sesgadas hacia los resultados de los experimentos con un alto rendimiento.
Por ejemplo, analizamos una serie de artículos publicados a finales de la década de 2000 centrados en el desarrollo embrionario y en C. elegans. Había análisis genómicos completos para estudiar los elementos que participaban en el desarrollo embrionario y muy pocos datos experimentales adicionales relacionados con C. elegans. Partiendo solo de estos datos, el modelo podría concluir que C. elegans solo participa en el desarrollo embrionario porque eso es lo que dicen todos los datos. Estos tipos de sesgos derivados de los experimentos de alto rendimiento son un problema y, sin intervención humana, pueden hacer que el modelo tenga una visión del mundo muy sesgada.
CAS: En su opinión, ¿cuáles son ahora mismo las grandes oportunidades en el campo de la predicción de la función de proteínas?
Iddo: Creo que el aprendizaje automático supondrá una gran diferencia, y también veremos diferentes representaciones de secuencias y estructuras de proteínas. Seguimos teniendo un cuello de botella en el uso de la ontología, hasta el punto de que algunas personas están renunciando totalmente a su uso y limitándose a decir: “Este clúster es homogéneo. Por lo que a mí respecta, esto es una función”. Contar con AlphaFold y ESMFold para obtener información estructural con predicciones decentes será una gran ayuda.
También necesitamos un esfuerzo consciente por parte de los organismos que financian la investigación para generar más datos válidos, de alta calidad y con un alto contenido de información. Debería haber menos becas de consorcios —y al decir esto estoy echando tierra sobre mi propio tejado— y dejar que aparezcan muchas becas pequeñas y medianas para conseguir que algunos estudiantes posdoctorales y alumnos se dediquen a clasificar funciones concretas y a crear más diversidad en el ecosistema científico.
CAS: Si tuviera una varita mágica que le permitiera resolver un único problema de su campo, ¿cuál elegiría?
Iddo: La capacidad de seleccionar publicaciones de una forma automática y precisa y transferir la información a una representación computacional que sea válida a largo plazo. Pero, como dije antes, hay un buen motivo por el que confiamos este trabajo a los humanos hoy en día. Ni siquiera creo que la ontología génica, o cualquier ontología, sea la única representación válida a largo plazo, pero por ahora no se me ocurre nada mejor. Es complicado, porque nuestra representación de las cosas por medio de ontologías es un cuello de botella y eso casi equivale a decir que el lenguaje humano es un cuello de botella. Pero estamos entrando en el terreno de la filosofía y carezco de la formación necesaria para hablar de ese tema.