Desafios e oportunidades na análise de sequência durante a descoberta de medicamentos

jefferson parker

Uma conversa com Jefferson Parker, Ph.D, fundador da NullSet Informatics Solutions

À medida que a biologia computacional continua avançando na descoberta de medicamentos, surgem novos desafios e oportunidades constantemente. A análise de sequência é um aspecto fundamental da bioinformática. Nesse artigo, falamos com Jefferson Parker, Ph.D, fundador da NullSet Informatics Solutions e especialista em análise de dados em ciências da vida, sobre as novas fronteiras da análise de sequência na descoberta de medicamentos.

CAS: Como biólogo computacional, que funções você já desempenhou na descoberta de medicamentos?

Jefferson: Já fiz de tudo, auxiliei desde laboratórios de descoberta de medicamentos até grupos de pesquisa translacionais. Mais recentemente, trabalhei com equipes clínicas em operações e desenvolvimento. Dei suporte a equipes de farmacovigilância com análises de dados de segurança, trabalhei em desenvolvimento de negócios e com inteligência competitiva. Inclusive fui membro incorporado em equipes de engenharia de software como analista de bioinformática, uma espécie de tradutor entre os cientistas do laboratório experimental e os desenvolvedores de software.

CAS: Você pode falar sobre o papel da análise de sequência na descoberta de medicamentos? Por que ela é importante?

Jefferson: Na descoberta, a análise de sequência pode ser usada para fazer triagem de descoberta de alvo. Observando o que acontece no nível transcriptômico, você pode mapear qualquer caminho de conhecimento que tenha e perguntar: “Quais são as causas iniciais mais prováveis?” Esses são seus prováveis alvos ou algo próximo ao seu alvo de medicamento, no sentido de ter uma sinalização. Se o seu medicamento foi projetado para um alvo específico, esperamos que a análise ajude a confirmar que você está chegando perto.

Você também pode começar a procurar biomarcadores dos pacientes selecionados. Existe um perfil genético específico, quer ao nível da expressão, quer ao nível da sequência de DNA, com várias mutações? Existem certas mutações presentes nos pacientes que os tornam mais ou menos suscetíveis à eficácia do seu medicamento? Essa é uma área extremamente empolgante e ativa na indústria farmacêutica. Pode realmente fazer a diferença entre o sucesso e o fracasso de um tratamento saber se, sim, este medicamento funcionará, ou não, ele provavelmente não funcionará. Além disso, você não vai desperdiçar o precioso tempo dos pacientes. Especialmente em um campo como a oncologia, onde os pacientes não têm muito tempo, você não vai perder tempo com tentativa e erro e com várias linhas de terapia com medicamentos que simplesmente não funcionam.

E tudo isso envolve a análise de sequência. Ela aborda todos os aspectos do processo de desenvolvimento de medicamentos.

CAS: Onde você acha que estão os maiores desafios da análise de sequência?

Jefferson: Eu diria que os desafios estão diminuindo muito rápido, porque a tecnologia avança a cada ano. Costumávamos ter pequenas leituras curtas e o grande desafio era a montagem. Agora estamos obtendo leituras mais longas e a montagem ainda é um desafio, mas não como era.

Imagine que você deixa cair seu exemplar de Guerra e Paz em um triturador. Você tem fragmentos de página com alguns milímetros por alguns centímetros, então será muito difícil remontar o livro com isso. Mas, se os fragmentos das páginas forem muito maiores, mais longos e você tiver um pedaço de parágrafo em vez de um fragmento de palavra, será muito mais fácil remontar a história na ordem correta. Isso é basicamente o que está acontecendo agora, com a transição para leituras cada vez mais longas.

O armazenamento ainda é um problema. Mesmo na minha função mais recente, tínhamos que movimentar os dados de sequência e a maneira mais rápida de fazer isso era carregá-los em um disco rígido e despachá-lo pela FedEx em uma caixa. Em vez de movimentar centenas de gigabytes ou terabytes de dados pela Internet, é mais rápido enviá-los em uma caixa. O armazenamento local não é um problema, é a transmissão de uma grande quantidade de dados de um lugar para outro. Hoje em dia, tendo os dados onde eles precisam estar, você pode encontrar poder de computação suficiente para executar seu projeto de sequenciamento, mas o gargalo ainda é levar os dados até as máquinas.

As amostras derivadas dos pacientes também são um desafio. Elas são dolorosas, as biópsias são invasivas e as pessoas doentes não querem ter que dar várias amostras. Geralmente, após retiradas, as amostras são fixadas em formalina e embebidas em parafina, de modo que qualquer material de ácido nucleico será degradado em algum grau. Existem maneiras de tentar extrair e usar esse tipo de tecido de amostra preparado para sequenciamento, mas a qualidade da sequência sempre ficará prejudicada.

Para uma empresa pequena, a tecnologia também é cara – essas máquinas custam muito dinheiro. Da mesma forma, os biólogos computacionais estão se tornando muito mais comuns, mas ainda assim, eles não estão em todos os lugares, e todo mundo quer trabalhar para a maior e melhor empresa e ganhar mais. A mão de obra está crescendo, mas ainda é limitada.

De certa forma, ninguém mais quer trabalhar com análise de sequência. Todos querem criar o próximo grande modelo de aprendizado. O foco não está tanto no processamento dos números e na análise de dados, agora está na IA e no ML avançados. Todo mundo quer trabalhar na tecnologia nova, sedutora e atraente. E isso não é análise de sequência. Então, isso será um desafio em breve.

CAS: Hoje você realmente precisa de um biólogo computacional para fazer análise de sequência?

Jefferson: Se você está usando metodologias padronizadas e bem estabelecidas que são bem desenvolvidas, validadas e documentadas, então não, não precisa. Você não precisa de alguém para criar a roda de novo. Existem muitas soluções de software disponíveis no mercado que podem ler os dados de entrada de todas as diferentes máquinas de sequenciamento. Você carrega, arrasta e solta os ícones do pipeline que deseja processar e pressiona um botão. Você vai tomar café, almoçar, ou dependendo do tamanho da máquina que você estiver trabalhando, você pode ir para casa e voltar pela manhã, e estará pronto. Você não precisa de alguém como eu para fazer isso. Qualquer colaborador de pesquisa com experiência em tecnologia poderá fazer isso.

Se, por outro lado, você estiver trabalhando com uma máquina de sequenciamento de ponta e tentando derivar uma nova metodologia de análise que não foi feita antes, então não vai ter uma solução pronta para uso. Aí, você precisa de alguém que entenda de biologia; alguém que entenda os dados de entrada, os dados de saída, a matemática e tudo mais. Para juntar tudo isso e integrar a uma nova solução que ainda não existe, então você precisa de um “eu” ou alguém que entenda de todas essas partes.

CAS: Você mencionou que as pessoas agora só querem trabalhar com IA e ML. Essas tecnologias podem ajudar na análise de sequência?

Jefferson: Com um conjunto de dados bem-organizado, a IA e o ML com certeza ajudarão. Eu sei que existem organizações que estão aplicando tecnologias de aprendizado de máquina para consumir a literatura e construir gráficos de conhecimento, então elas certamente têm uma função a desempenhar. A IA e o aprendizado de máquina poderiam ajudar apenas na montagem da sequência? Provavelmente, mas não sei se, na verdade, não estaríamos usando um canhão para matar um mosquito.

CAS: Falando em IA, o que você acha do AlphaFold, que usa a IA para fazer previsões de estruturas de proteína?

Jefferson: Eu acho que o AlphaFold é absolutamente um divisor de águas. Ele oferece um caminho muito mais rápido para uma estrutura, que pode alimentar coisas, como o design de medicamentos auxiliado por computador com muito mais rapidez do que seríamos capazes de fazer antes. Você não precisa mais ter RMN ou estrutura cristalina para ter um ponto de partida. Ele é tão bom quanto uma estrutura cristalina? Provavelmente não. A coisa real, medida, sempre será melhor que a simulação. Mas, em termos de tempo, você pode ter alguma coisa disponível agora. Vai ter um impacto que talvez nem estejamos vendo ainda. Eu sinto que, com o AlphaFold, a pedra caiu no lago e gerou impacto, mas são apenas as primeiras ondulações que estão se formando.

CAS: O que você acha que é a vanguarda de IA e ML na descoberta de medicamentos?

Jefferson: É espacial, que é tipo a próxima geração de célula única. Multiômica. Pegando o DNA, o RNA, as proteínas, a metabolômica e integrando tudo isso. E até mesmo integrando tudo com vias celulares e comunicação intercelular. Não se trata mais de apenas uma célula única. É a célula única, as células próximas dela e as próximas a elas; como elas estão interagindo? É para onde estamos indo, onde já estamos.

CAS: Você acha que vamos criar modelos de sistemas biológicos?

Jefferson: Se você tivesse me perguntado isso quando eu estava na pós-graduação, eu teria dito que a humanidade não tem a matemática capaz de descrever um sistema biológico. Biologia é química complexa, química é física complexa e física é matemática complexa. Essa é a base de tudo. A física é um problema que pode ser resolvido matematicamente, só que requer uma imensa quantidade de dados, e a química é, até certo ponto, a mesma coisa. Mas a biologia… Eu acreditava que não tínhamos, e não teríamos, a capacidade de modelar matematicamente um sistema biológico.

Mas, agora, provavelmente é esse o caminho que terá que ser seguido. Será necessário um computador quântico? Talvez. Pode ser depois que eu morrer, mas digo agora com uma boa dose de confiança que, em algum momento, a humanidade será capaz de fazer simulações computacionais precisas e confiáveis dos sistemas vitais. E essa afirmação me dá arrepios. Sei que há muito trabalho sendo feito no espaço do gêmeo digital. São cenários iniciais, limitados, mas os gêmeos digitais estão online e sendo usados em ensaios clínicos agora. Isso é meio que o começo.

CAS: O que você acha que é necessário para impulsionar essas novas fronteiras, então? Precisamos de novos algoritmos ou novas estruturas? Ou, realmente, trata-se de só tentar fazer tudo se encaixar?

Jefferson: É tudo isso. Precisamos de novas formas de pensar sobre o problema. Pode ser aplicar algoritmos antigos com novas formas de design ou implementar novos algoritmos. Para coisas como a epigenômica, e analisando a dinâmica do DNA ou o espaço de RNA não codificante, exoma versus tudo o mais, vemos que é diferente de apenas fazer análise de sequência. É uma forma diferente de pensar sobre o assunto. Ainda é a sequência, mas não é a sequência. Essas formas diferentes de pensar sobre o assunto vão exigir ferramentas diferentes.

CAS: Se você pudesse usar uma varinha mágica e resolver um problema na análise de sequências e descoberta de medicamentos, o que você resolveria? E que impacto isso teria?

Jefferson: Eu faria todos os dados bem anotados e disponíveis para todos. Todos os dados proprietários de empresas, instituições e universidades… em todos os lugares. Em uma plataforma de armazenamento unificada, bem anotada e bem documentada, que poderia ser usada livremente por todos. Porque, assim, haveria o suficiente e poderíamos resolver os grandes problemas.

 

Jefferson began his research career at MIT, exploring xenobiotic metabolism in the gram-positive soil bacterium Rhodococcus aetherovorans. He got into computing when faced with an overload of data trying to annotate the genome to develop DNA microarrays, and he’s been working at the intersection of biology, computing, and mathematics since. His career has taken him through small pharma, large pharma, and consulting organizations, including Novartis and Thomson Reuters. Along the way Jefferson acquired his Graduate Certificate in Applied Statistics from Pennsylvania State University and a master’s degree in computer science from Boston University.

Now, Jefferson is forging a new path with his own bioinformatics consulting company, NullSet Informatics Solutions providing data and analytics, data modeling, and technology project management services.