À medida que abordagens algorítmicas mais sofisticadas demonstram maior precisão, tornam-se mais acessíveis diversos conjuntos de dados e aumenta o poder de computação técnica , o uso de técnicas de aprendizado de máquina (AM) na descoberta de medicamentos está mudando da possibilidade teórica para a utilidade do mundo real. Um exemplo é o recente sucesso de pesquisadores do MIT que usaram AM para descobrir uma nova classe de compostos eficazes para matar bactérias resistentes a antibióticos. Como a inovação de antibióticos fica limitada pela diversidade estrutural, devido ao pequeno número de mecanismos que esses medicamentos podem atingir, a capacidade do AM de identificar candidatos inesperados a medicamentos com atividade foi um grande passo à frente.
Embora emocionante, esse resultado ainda é raro. No entanto, de forma mais geral o AM está permitindo que os pesquisadores rastreiem grandes conjuntos de potenciais compostos terapêuticos para identificar aqueles que se prevê serem mais potentes e relevantes para os alvos de interesse. Essa priorização in silico de candidatos para síntese e teste reduz significativamente o custo por lead para as equipes de descoberta de medicamentos, diminuindo o conjunto de moléculas que são preparadas ou compradas.
No entanto, esses benefícios, e aspirações ainda maiores para o AM na descoberta de medicamentos, só podem ser realizados em uma escala maior se os algoritmos forem confiáveis para fornecer, de forma consistente, previsões precisas de bioatividade. Como podemos aumentar a abordagem do AM para aumentar a precisão e a confiabilidade dessas predicações? Conforme demonstram pesquisas usando dados de substâncias CAS publicadas recentemente no Journal of Chemical Information and Modeling, a resposta pode surpreendê-lo; com um químico humano.
Leia o artigo completo do periódico Impact of Chemist-In-The-Loop Molecular Representations on Machine Learning Outcomes para ver os dados que mostram como as impressões digitais moleculares com curadoria feita por químicos impactaram a precisão da previsão.
Dados, descritores e algoritmos: a tríade que impulsiona o sucesso preditivo
Os algoritmos são frequentemente considerados o componente mais importante do AM e, obviamente, são críticos. É dedicada uma energia considerável para construir, testar e otimizar abordagens algorítmicas para modelar cada situação de interesse. No entanto, eu diria que a qualidade dos dados continua sendo o fator mais importante para a construção de modelos de AM confiáveis. Quando, por limitações de disponibilidade, curadoria ou diversidade, os dados disponíveis não refletem com precisão o universo de possibilidades que o algoritmo deve considerar, a sofisticação do algoritmo é desperdiçada. É muito importante ter um conjunto abrangente e limpo de propriedades estruturais, biológicas e físicas para alimentar uma abordagem algorítmica para avaliar potenciais candidatos a medicamentos. O CAS REGISTRY®, que atualmente contém dados sobre mais de 166 milhões de moléculas pequenas com curadorias de cientistas que usam mais de 100 anos de literatura científica publicada e patentes, serve como uma excelente base de dados para esse tipo de trabalho.
No entanto, mais um componente crítico para a química preditiva tem sido negligenciado há muito tempo, mas mais recentemente está recebendo maior atenção: são os descritores moleculares. Também comumente conhecidas como impressões digitais moleculares, como seu nome sugere, os descritores moleculares descrevem as principais características de cada molécula química para o algoritmo. Dentre algumas das milhares de características potenciais de uma molécula candidata estão número de átomos, tipo de átomo e configuração de ligação. No entanto, os recursos mais relevantes para os resultados preditivos variam dependendo do objetivo do algoritmo. Apesar disso, a maioria dos esforços de AM hoje conta com um conjunto genérico de descritores moleculares.Alguns dos descritores mais populares (incluídos no Extended Connectivity Fingerprints) são baseados no algoritmo de Morgan, desenvolvido no CAS no início dos anos 1960 por Harry Morgan. Embora estes sejam um bom ponto de partida, nossa pesquisa demonstrou que uma impressão digital aprimorada recentemente desenvolvida pelo CAS que inclui mais de 25.000 características estruturais selecionadas por nossa equipe de químicos melhora consistentemente a precisão das previsões de bioatividade.
Transformar químicos em alfaiates produz previsões mais adequadas
Nossa pesquisa publicada recentemente se concentrou em comparar a precisão das previsões de bioatividade usando vários descritores genéricos comuns com os que usam os novos descritores desenvolvidos aproveitando a experiência dos químicos do CAS para adicionar riqueza de recursos adequada para muitas aplicações de AM. Para simplificar, nos referimos a esses descritores com curadoria química como impressões digitais do CAS. Os resultados do estudo mostram que as impressões digitais do CAS, quando usadas para prever a bioatividade para um grande conjunto de benchmark com 88 alvos diversos, superam os descritores moleculares comumente usados, como as impressões digitais ECFP (Morgan), Avalon, Atom Pair e Topological Torsion. Com base em ROC-AUC e PRC-AUC, a impressão digital CAS proprietária teve a classificação média mais alta em modelos de AM de floresta aleatória.
Testes preliminares mostram que, quando os químicos personalizam ainda mais os recursos usados nessas impressões digitais aprimoradas pelo CAS, podem ser alcançados ganhos de precisão adicionais e são amplamente aplicáveis para cada aplicativo algorítmico individual. Essas impressões digitais personalizadas são criadas selecionando os recursos mais informativos para os alvos de interesse. Podem ser usadas várias técnicas de redução de dimensionalidade, como análise de componentes principais, para melhorar ainda mais a precisão, estabilidade e escalabilidade dos modelos preditivos. A análise de importância de recursos também pode ser usada para obter informações adicionais sobre os elementos mais relevantes para a atividade biológica, criando um ciclo virtuoso de otimização.
Embora esses ganhos iniciais de precisão e outras possibilidades sejam empolgantes, possivelmente a descoberta mais interessante deste trabalho é o impacto demonstrado da impressão digital do CAS na diversidade de resultados preditivos. Isso destaca seu potencial para também impactar a inovação de maneira positiva. A impressão digital do CAS frequentemente encontra estruturas ativas que são significativamente diferentes das previstas por modelos construídos com descritores moleculares mais genéricos e comuns. Como pode ser visto na Figura 1 abaixo, a correlação entre a impressão digital do CAS e outros modelos testados é muito baixa. Portanto, a impressão digital do CAS captura sinais químicos ortogonais que fornecem informações exclusivas não fornecidas por outros descritores moleculares comumente usados.
https://pubs.acs.org/doi/full/10.1021/acs.jcim.0c00193)" data-entity-type="file" data-entity-uuid="ef1380cd-994a-4c43-8fff-8c75895588f2" src="/sites/default/files/inline-images/test%20cas_correlation%5B1%5D.png" />
Aplicações mais amplas de descritores moleculares aprimorados
Descritores moleculares personalizados têm aplicações adicionais como parte de um fluxo de trabalho de P&D ampliado e habilitado para AM. Por exemplo, na descoberta em estágios iniciais, é altamente desejável identificar um conjunto estruturalmente diverso de compostos que tenham atividade semelhante, mas contenham estruturas centrais diferentes (ou seja, scaffold hopping), pois fármacos estruturalmente originais têm duas vezes mais probabilidade de receberem a concessão de status de designação de terapia inovadora pela FDA. O potencial de scaffold hopping é considerado uma habilidade importante para os métodos de AM. No entanto, o potencial para recuperar moléculas estruturalmente diversas varia de acordo com a impressão digital. A análise preliminar mostrou que a impressão digital do CAS tem melhor potencial de scaffold hopping do que outras impressões digitais comumente usadas. Este é um fator importante para descobrir classes inteiramente novas de candidatos ou avaliar com precisão a atividade de pools de candidatos estruturalmente diversos.
A abordagem de triagem com suporte de AM descrita acima também pode ser usada para rastrear proativamente todos os novos compostos que entram em conjuntos de dados internos e externos, incluindo o CAS REGISTRY, para atividade potencial em relação ao portfólio de metas prioritárias de uma organização. Ao organizar os modelos de AM específicos de alvo em pipelines, essa abordagem pode alimentar continuamente os candidatos mais potentes do pipeline. Esses casos de uso também não se limitam a drug delivery. As abordagens discutidas aqui que contam com AM para identificar, rastrear e priorizar compostos candidatos também estão sendo adotadas em outras aplicações químicas, como o desenvolvimento de novos pesticidas.
Você tem ideias sobre outras aplicações impactantes de descritores moleculares aprimorados ou personalizados na descoberta de medicamentos ou outras aplicações químicas? Compartilhe suas ideias nos comentários abaixo ou conecte-se com nossos Serviços Personalizados.