Gain new perspectives for faster progress directly to your inbox.
Uma conversa com Iddo Friedberg, Ph.D., Professor associado, Universidade Estadual de Iowa
A previsão da função de proteínas avançou significativamente na última década, coincidindo com o surgimento de novos métodos computacionais de aprendizado de máquina e inteligência artificial. Neste artigo, conversamos com Iddo Friedberg, especialista em previsão da função de proteínas e coorganizador do experimento Critical Assessment of Function Annotation (CAFA), sobre o grau de precisão dos modelos que preveem a função de proteínas e como ele imagina o que se seguirá nesse campo.
CAS: Como surgiu seu interesse pela previsão da função de proteínas?
Iddo: Foi durante meu pós-doutorado, enquanto eu fazia bioinformática estrutural. Eu estava tentando encontrar uma maneira diferente de representar estruturas de proteínas usando fragmentos ou uma biblioteca de fragmentos, e estava começando a relacionar estrutura com função. Comecei a me perguntar: “Como a sequência e a estrutura se relacionam com a função? Como podemos prever melhor a função da proteína a partir da sequência e da estrutura?"
Várias formas de prever a função das proteínas estavam em desenvolvimento na época, e imaginei que seria bom conversar com mais pessoas sobre o assunto, mas não consegui encontrar uma conferência específica para isso. Então, fui em frente e organizei uma por conta própria. Isso foi em 2005, numa conferência satélite na Intelligent Systems for Molecular Biology (ISMB) em Detroit, e depois organizamos nossa própria conferência autônoma na Universidade da Califórnia, em San Diego (UCSD), em 2006. Desde então, organizamos a conferência, a reunião sobre previsão computacional automatizada da função de proteínas, como parte do ISMB.
CAS: Como o campo da previsão da função de proteínas automatizada evoluiu desde que você começou?
Iddo: Definitivamente estamos vendo melhorias ao longo dos anos. Em 2010, Predrag Radivojac, agora na Northeastern University, Sean D. Mooney, da Universidade de Washington, e eu iniciamos a competição CAFA para prever a função de uma proteína a partir de sua sequência ou estrutura. A ideia geral era associar uma sequência de proteína a um conjunto de termos de ontologia que descreveriam sua função e procurar maneiras de melhorar a anotação computacional de uma função de proteína. Por ter abordagens e métodos de previsão variados nas inscrições do CAFA, a competição também serve como um experimento para avaliar os métodos de previsão da função de proteínas em larga escala.
Na modelagem, usamos uma métrica chamada pontuação Fmax (a média harmônica máxima em uma curva de recuperação de precisão) para descrever a precisão com que um modelo está prevendo, uma escala que vai de 0 a 1, onde 1 é o ideal. Com o CAFA 1, vimos uma pontuação Fmax de algo como ~0,5, talvez um pouco acima, e agora, com o CAFA 4, está em ~0,7. Depende do aspecto da ontologia, um dos aspectos está em ~0,7 e outro em ~0,4/0,5, mas está melhorando.
Com o apoio recente do Kaggle, o CAFA 5 conta com 1.675 equipes competindo para prever a função de um conjunto de proteínas. A avaliação final só estará completa em janeiro de 2024, mas posso dizer que estamos nos aproximando de um Fmax médio de ~0,65 para as três ontologias que temos, o que significa que alguém deve estar próximo a ~0,8, no aspecto da função molecular da Ontologia Genética.
Também vemos uma expansão do tipo de conhecimento necessário para fazer essas previsões de forma confiável: as pessoas por trás dos algoritmos. Nossa comunidade CAFA agora inclui especialistas em bioinformática, biologia experimental, biocuradoria e bioontologias. Estamos todos trabalhando juntos para melhorar como gerenciamos a infinidade de dados aos quais agora temos acesso.
CAS: Algumas abordagens para a previsão da função de proteínas estão funcionando melhor do que outras?
Iddo: Tenho um pressentimento sobre o que funciona bem agora na literatura, e houve uma pequena mudança. O que funcionou no passado para prever o aspecto da função molecular foi a transferência de homologia. Quanto mais sensível for o seu método para detectar homólogos remotos, melhor ele funcionará, e se você puder adicionar informações estruturais, melhor ainda, porque a estrutura vai muito mais longe na evolução do que a sequência. A aplicação desses modelos era relativamente simples, mas mesmo assim, nos bastidores, as pessoas já estavam começando a usar mais o aprendizado de máquina.
Quando o CAFA 3 e o CAFA 4 foram lançados, tínhamos pessoas representando proteínas e sequências de proteínas como os embeddings para prever a função. Os embeddings são uma representação multidimensional dos dados que mudaram o cenário. Nas previsões clássicas, as proteínas são representadas como cadeias de caracteres e o modelo procura semelhanças entre as cadeias (sequências de proteínas). Com os embeddings, a previsão considera o contexto circundante de cada parte da proteína usando um modelo estilo Word2Vec, o ProtVec. Esses tipos de representação são incrivelmente sensíveis e têm um poder preditivo muito alto. Podemos até encontrar alguma outra coisa, mas no momento acredito que as pessoas estão se saindo muito bem usando os embeddings.
CAS: À medida que as previsões da função molecular melhoram, até que ponto conseguiremos prever processos biológicos e componentes celulares?
Iddo: Nos CAFAs iniciais, vimos pontuações mais baixas ao tentar prever o processo biológico. As pontuações eram inferiores às pontuações de previsão da função molecular em todos os CAFAs. Digamos que você saiba que essa proteína é uma quinase e que, em um camundongo, ela participa da apoptose. Você pode se perguntar: “Ela funciona do mesmo jeito em humanos?” Um rato e um humano provavelmente estão próximos o suficiente para dizer: “Sim, eles funcionam da mesma forma”. Mas, e os humanos e a drosófila? Ou a levedura? É aí que a transferência de homologia pode falhar, porque quanto mais distantes ficamos do ponto de vista evolutivo, mais diferenças vemos.
Nós estamos nos aperfeiçoando. Uma das tentativas que fizemos foi pedir aos preditores que escolhessem entre um conjunto de palavras-chave para descrever seu método de previsão. O que vimos é que coisas como modelos ocultos de Markov e pesquisas remotas de homologia caracterizam os principais métodos para prever a função molecular. Mas para processos biológicos, os principais métodos são a mineração de textos de artigos e o contexto genômico. Então, eles estão fazendo previsões de maneiras muito diferentes.
A previsão do componente celular não está indo muito bem e precisamos descobrir por que isso acontece. Uma coisa é que a própria estrutura da ontologia, a ontologia do componente celular, é difícil de ser trabalhada. Se imaginarmos o gráfico da ontologia da função molecular como uma árvore, e a ontologia do processo biológico como um belo gráfico acíclico direcionado e hierárquico, então o componente celular se assemelha a um arbusto. A estrutura é um pouco diferente e não temos uma boa maneira de descrevê-la no momento. Além disso, os preditores de funções são bem menos populares. Acredito que, muitas vezes, eles não consideram a previsão do componente celular como tendo o mesmo prestígio que a previsão da função molecular ou do processo biológico.
CAS: Quais você diria que são os principais gargalos na área?
Iddo: Definitivamente precisamos de mais: mais poder computacional, mais ideias e mais proteínas sendo estudadas. A ideia geral de representar a função como ontologia é diferente, digamos, de representar a estrutura como bolinhas de gude e espaço 3D. Com a estrutura, podemos discutir quantas bolas de gude são necessárias e o grau de precisão delas, mas já é algo tangível. Ontologia é um termo derivado da filosofia e é quase uma representação subjetiva da realidade. Isso muda com o tempo, tanto na forma como entendemos a natureza como também no direcionamento ou foco dos esforços de pesquisa.
No CAFA, tivemos um grupo que realmente disse: “Não vamos tentar prever a função das proteínas, vamos tentar prever o que os biocuradores farão a seguir”. Eles previram quais funções estariam nos dados de validação dos biocuradores naquela rodada do CAFA, quais funções eles teriam priorizado na curadoria. O método deles não era o melhor, mas não se saíram tão mal assim. Não podemos prever algo que ainda não tenha sido verificado experimentalmente de alguma forma. Então, após a inserção no conjunto de dados por um curador, então o que está sendo tratado é realmente importante.
CAS: Claramente, um dos principais gargalos não é computacional, mas que trabalho experimental de laboratório tem sido feito e publicado?
Iddo: São os experimentos, mas também a maneira como são publicados. Por que não publicar os resultados diretamente como ontologias? Se você descobrir uma nova sequência de proteína, ao escrever o artigo, será necessário depositar a sequência em um repositório como o GenBank. Ou, se você descobrir uma nova estrutura de proteína, você depositará a estrutura no Banco de Dados de Proteínas, e há regras muito rígidas sobre como representar a sequência e a estrutura quando você as deposita. Também deveria haver diretrizes sobre como representar a função da sua proteína como uma ontologia, e minha opinião é que os pesquisadores deveriam saber como fazer isso.
Os biocuradores, com certa razão, dizem: “Não, os pesquisadores não deveriam fazer isso. Eles não têm ideia de como usar ontologias”. Mas, o gargalo no momento está na biocuradoria. Existem dois campos: um é que apenas os biocuradores deveriam fazer o trabalho porque sabem como fazê-lo, e o outro é que todos deveriam fazê-lo, mas isso pode criar erros de anotação. Na verdade, não está claro para mim como resolver isso. Alguns dizem que uma melhor formação dos pesquisadores na utilização de ontologias pode ajudar, mas os biocuradores têm uma compreensão muito melhor da seleção dos termos apropriados da ontologia e das relações adequadas.
CAS: Você acha que os avanços recentes nos modelos de processamento de linguagem natural (PNLs) podem ser usados para biocuradoria?
Iddo: Não vejo isso acontecendo ainda, acho que precisamos de mais do que um grande modelo de linguagem para fazer isso corretamente. As regras são complexas e esse é o motivo pelo qual usamos humanos para fazer isso. Os humanos são muito bons em tarefas complexas, mas acho que isso ainda é complexo demais para PNLs. Outro problema é que às vezes as ontologias são difíceis de serem associadas e nem sempre estão disponíveis os termos corretos da ontologia. Especialmente para funções recém-descobertas, é necessário criar termos novos e colocá-los corretamente na ontologia adequada.
Aí, você passa a ter o gargalo de alto rendimento. Experimentos de alto rendimento geram muitos dados, mas são gerados todos os dados positivos sobre o ensaio. Isso significa que os dados geralmente têm baixo conteúdo informativo. Analisamos isso em 2013 e concluímos que os bancos de dados de proteínas anotados são incrivelmente desequilibrados em relação aos resultados de experimentos de alto rendimento.
Por exemplo, analisamos uma série de artigos publicados no final dos anos 2000, que analisavam o desenvolvimento embrionário e o C. elegans. Havia análises completas do genoma para verificar o que estava envolvido no desenvolvimento embrionário, e muito poucos outros dados experimentais surgiram de C. elegans na época. Assim, apenas a partir destes dados, o modelo poderia concluir que tudo o que C. elegans faz é o desenvolvimento embrionário, porque isso é tudo o que os dados dizem. Esses tipos de vieses provenientes de experimentos de alto rendimento são um problema e, sem intervenção humana, podem dar ao modelo uma visão de mundo muito tendenciosa.
CAS: Na sua opinião, quais são as grandes oportunidades na previsão da função de proteínas no momento?
Iddo: Acho que o aprendizado de máquina definitivamente fará uma grande diferença, e também veremos diferentes representações de sequências e estruturas de proteínas. Ainda temos um gargalo com relação ao uso da ontologia, então algumas pessoas estão desistindo completamente de usá-la e simplesmente assumem: “Este é um cluster homogêneo. No que me diz respeito, esta é uma função”. O fato de termos o AlphaFold e ESMFold para nos fornecer informações estruturais com previsão decente vai ajudar muito.
Precisamos também de um esforço deliberado por parte das agências de financiamento para gerar dados mais válidos, de alta qualidade e com muitas informações. Deveríamos ter menos bolsas de consórcio, o que é uma espécie de tiro no pé, na verdade, e criar muitas bolsas de pequeno e médio portes para atrair alguns pós-doutorandos e estudantes para caracterizar funções específicas e criar mais diversidade no ecossistema científico.
CAS: Se você pudesse usar uma varinha mágica e resolver um problema em sua área, o que você resolveria?
Iddo: A capacidade de selecionar artigos de forma automática e precisa e colocar essas informações em uma representação computacional que permaneça válida no longo prazo. Mas, como disse anteriormente, existe uma boa razão para confiarmos nos humanos para fazer esse trabalho agora. Não penso necessariamente que a ontologia genética, ou qualquer ontologia, seja a única representação válida no longo prazo, mas não consigo pensar em nada melhor no momento. É difícil porque a nossa representação de coisas usando ontologias é um gargalo, mas, novamente, isso é quase como dizer que a linguagem humana é um gargalo. Mas aí, estamos entrando no terreno da filosofia e não estou qualificado para falar sobre isso!