Modelos de IA e de aprendizado de máquina ajudam no planejamento retrossintético, mas ficam limitados pelos dados de treinamento que analisaram. Continue lendo para saber mais sobre as maneiras de gerar novas previsões, garantindo que seus dados tenham a diversidade e a qualidade necessárias para otimizar as principais iniciativas de planejamento sintético.
A evolução das moléculas de medicamentos existentes tem sido o pilar da inovação na descoberta de medicamentos. No entanto, à medida que olhamos para o futuro, pequenas moléculas estruturalmente originais podem se revelar terapias mais valiosas do que adaptações de medicamentos atuais. Como 65% dos medicamentos aprovados em 2020 são de pequenas moléculas estruturalmente originais, essas moléculas têm 2,5 vezes mais chances de serem reconhecidas como terapias inovadoras pela FDA e 2 vezes mais chances de se tornarem medicamentos de grande sucesso em até 5 anos após o lançamento.
Porém, sintetizar novas moléculas não é uma tarefa fácil. As ferramentas de previsão retrossintética estão se tornando vitais para o design de novas abordagens e otimização da eficiência da produção. Essas ferramentas aproveitam sistematicamente pesquisas atualizadas de todo o mundo para permitir resultados mais rápidos no mercado. A economia de custos em todo o pipeline de desenvolvimento também pode ser obtida com a criação de moléculas com restrições específicas, como preço ou fornecedores.
A aplicação bem-sucedida da IA à síntese química é limitada pela qualidade e diversidade dos dados, cuja falta dificulta a exatidão da previsão. Isso ficou demonstrado em nossa recente colaboração, na qual a Bayer buscava otimizar o uso de IA para a retrossíntese de novas moléculas pequenas. Ao enriquecer o conjunto de treinamento existente com nossos dados de reações diversificados e de alta qualidade, conseguimos ajudar a melhorar a precisão das previsões geradas para classes de reação raras em 32%.
Dados diversos e precisos impulsionam o sucesso do modelo de IA
No planejamento de síntese química, o objetivo é gerar conjuntos de rotas sintéticas tão diversas e precisas quanto possível. No entanto, as aplicações de IA são tão bons quanto os dados subjacentes. O poder preditivo depende da qualidade, diversidade e precisão dos dados de treinamento. Um desafio importante é a diversidade de dados, porque se os dados de treinamento não representarem subespaços químicos escassamente povoados, além da química comum, a plicação de IA fornecerá resultados limitados em escopo e originalidade.
O CAS Reactions oferece uma gama diversificada de dados de reação que podem impactar significativamente o poder preditivo do planejamento de síntese. A coleção mais que dobrou de tamanho nos últimos 10 anos e reúne as informações químicas mais robustas e detalhadas de patentes, periódicos e publicações científicas de todo o mundo. Essa curadoria está em andamento e continua em sintonia com o aprendizado de máquina para capacitar e enriquecer o planejamento de síntese de IA.
A Bayer e o CAS colaboram para maximizar a IA para tornar a descoberta de medicamentos mais eficiente
Em uma colaboração entre a Bayer e o CAS, um amplo conjunto de treinamento de aprendizado de máquina foi enriquecido com dados do CAS, direcionados a tipos de reação raros para aumentar drasticamente o poder preditivo do modelo de IA de descoberta de medicamentos.
O modelo é composto por um filtro de viabilidade que consiste em uma rede neural que avalia se uma etapa de reação prevista tem probabilidade de ser bem-sucedida. A rede foi treinada sobre um conjunto de dados de reações conhecidas e um conjunto predominantemente teórico de reações com falha. Foi criado um conjunto de dados de treinamento adicional com dados CAS para quantificar a capacidade preditiva do filtro de viabilidade. A adição das reações do CAS aumentou a precisão em classes de reações raras de 16% para 48%, um aumento de 32%.
Melhorias na precisão do filtro de viabilidade têm um efeito multiplicador no pipeline, criando uma taxa mais alta de reações utilizáveis. Esse poder preditivo aprimorado abre categorias “raras” que anteriormente enganavam os modelos preditivos, contribuindo com novos resultados que iluminam as áreas de sombra da descoberta de medicamentos de pequenas moléculas.
Este estudo demonstra que mesmo um conjunto de tamanho médio de reações selecionadas por cientistas do CAS Content CollectionTM pode melhorar significativamente o poder preditivo de uma ferramenta de planejamento de síntese. Esse efeito foi observado em apenas uma pequena classe de reações, sugerindo que um poder preditivo ainda maior será visto com novos acréscimos ao conjunto de treinamento básico com dados fortes, de alta qualidade e diversos em todos os modelos. Esta impressionante prova de conceito tem amplas aplicações, principalmente para a descoberta mais eficiente de novos alvos de medicamentos de moléculas pequenas.
- Veja a recente apresentação do Dr. Yugal Sharma, do CAS, e Dr. Martin Villalba, da Bayer, na Conferência Virtual Pistoia Alliance
- Baixe o relatório técnico: Predizendo a Química Nova: impacto dos dados de treinamento de alta qualidade na previsão dos resultados da reação
O CAS pode otimizar seus resultados
O CAS Custom ServicesSM pode projetar conjuntos de dados de treinamento para potencializar seus esforços de aprendizado de máquina. Entre em contato com nossa equipe para discutir seus requisitos e melhorar sua precisão preditiva.