Les modèles d'intelligence artificielle et de machine learning aident à la planification rétrosynthétique, mais sont limités par les données d'entraînement utilisées. Poursuivez votre lecture pour découvrir des moyens de générer de nouvelles prédictions en veillant à ce que vos données présentent la diversité et la qualité nécessaires pour optimiser les initiatives de planification synthétique.
L'évolution des molécules médicamenteuses existantes a été la pierre angulaire de l'innovation dans la recherche de médicaments. Toutefois, alors que nous nous tournons vers l'avenir, des petites molécules structurellement nouvelles pourraient constituer des traitements plus intéressants que les adaptations de médicaments existants. 65 % des médicaments à petites molécules approuvés en 2020 étaient structurellement nouveaux, mais ces molécules sont 2,5 fois plus susceptibles d'être considérées comme des traitements innovants par la FDA et 2 fois plus susceptibles de devenir des médicaments à succès dans les 5 années suivant leur lancement.
Toutefois, la synthèse de nouvelles molécules n'est pas facile. Les outils de prédiction rétrosynthétique deviennent essentiels pour la conception de nouvelles approches et l'optimisation de l'efficacité de la production. Ces outils exploitent systématiquement les dernières recherches réalisées dans le monde entier pour accélérer la mise sur le marché. Il est également possible de réaliser des économies sur l'ensemble du pipeline de développement en créant des molécules avec des contraintes spécifiques, par exemple en termes de prix ou de fournisseurs.
L'application efficace de l'intelligence artificielle dans la synthèse chimique est limitée par la qualité et la diversité des données, indispensables à la précision des prédictions. Cela a été démontré au cours de notre récente collaboration, où Bayer cherchait à optimiser l'utilisation de l'intelligence artificielle pour la rétrosynthèse de petites molécules nouvelles. En enrichissant leur jeu d'entraînement existant à l'aide de nos données de haute qualité sur des réactions diverses, nous avons été en mesure d'améliorer de 32 % la précision des prédictions générées pour les classes de réactions rares.
Diversité et précision des données, piliers de l'efficacité du modèle d'intelligence artificielle
Dans la planification de la synthèse chimique, l'objectif est de générer des ensembles de procédés de synthèse aussi divers et précis que possible. Toutefois, les applications d'intelligence artificielle dépendent de la qualité des données sous-jacentes. La puissance prédictive dépend de la qualité, de la diversité et de la précision des données d'entraînement. Un défi majeur concerne la diversité des données, car si les données d'entraînement ne représentent pas les sous-espaces chimiques peu peuplés en plus de la chimie courante, l'application d'intelligence artificielle produira des résultats limités en termes de portée et de nouveauté.
CAS Réactions offre une plage diverse de données de réaction qui peuvent affecter considérablement la puissance prédictive de la planification de la synthèse. La collection, dont la taille a plus que doublé au cours des dix dernières années, organise les informations chimiques les plus robustes et détaillées provenant de brevets, de revues et de publications scientifiques du monde entier. Cette organisation s'effectue en continu et se poursuit en association avec l'apprentissage machine afin de renforcer et d'enrichir la planification de synthèse par IA.
Bayer et CAS collaborent pour optimiser l'intelligence artificielle en vue d'améliorer l'efficacité de la découverte de médicaments
Dans le cadre d'une collaboration entre Bayer et CAS, un large ensemble de données d'entraînement pour l'apprentissage machine a été enrichi avec les données CAS ciblant des types de réaction rares afin de renforcer considérablement le pouvoir prédictif du modèle d'intelligence artificielle affecté à la découverte de médicaments.
Ce modèle comprenait un filtre de viabilité composé d'un réseau neural qui évalue les chances de réussite d'une étape d'une réaction prévue. Le réseau a été entraîné sur un jeu de données de réactions connues et sur un ensemble principalement théorique de réactions ayant échoué. Un jeu de données d'entraînement supplémentaire a été élaboré avec les données CAS pour quantifier la capacité prédictive du filtre de viabilité. L'ajout des réactions provenant de CAS a amélioré la précision dans les classes de réactions rares en la faisant passer de 16 % à 48 %, soit un bond de 32 %.
Les améliorations de la précision du filtre de viabilité possèdent un effet multiplicateur dans le pipeline, créant un taux supérieur de réactions utilisables. Ce pouvoir prédictif amélioré ouvre des catégories « rares » qui échappaient auparavant aux modèles prédictifs, ce qui apporte de nouveaux résultats mettant en lumière des zones jusqu'alors obscures de la découverte de médicaments à petites molécules.
Cette étude démontre que même un ensemble de taille modérée de réactions organisées par des scientifiques à partir de CAS Collection de contenusTM peut améliorer nettement la puissance prédictive d'un outil de planification de synthèse. Cet effet a été constaté sur une petite catégorie de réactions seulement, ce qui suggère qu'un pouvoir prédictif encore plus important serait possible avec une augmentation plus importante du jeu d'entraînement de base contenant des données robustes, de haute qualité et diverses sur l'ensemble des modèles. Cette impressionnante validation de concept possède des applications très étendues, en particulier pour renforcer l'efficacité de la découverte de nouvelles cibles de médicaments à petites molécules.
- Consulter la présentation récente du Dr. Yugal Sharma, CAS, et du Dr Martin Villalba, Bayer, lors de la conférence virtuelle de la Pistoia Alliance
- Télécharger le livre blanc : Prédire la nouvelle chimie : l'impact des données d'entraînement de haute qualité sur la prévision des résultats des réactions
CAS peut optimiser vos résultats
CAS Services personnalisésSM peut concevoir des jeux de données d'entraînement pour mener à bien vos initiatives d'apprentissage machine. Contactez notre équipe pour parler de vos besoins et améliorer la précision de vos prédictions.