Alors que des approches algorithmiques perfectionnées produisent une plus grande précision, que les jeux de données divers deviennent plus accessibles et que la puissance de calcul technique augmente, l'utilisation de techniques d'apprentissage machine dans la recherche de médicaments n'est plus une simple possibilité théorique, mais une nécessité concrète. À titre d'exemple, on peut citer le succès récent des chercheurs du MIT qui ont utilisé l'apprentissage machine pour identifier une nouvelle catégorie de composés capables de tuer les bactéries résistantes aux antibiotiques. Comme la diversité structurelle est limitée dans l'innovation des antibiotiques en raison du petit nombre de mécanismes que ces médicaments peuvent cibler, l'aptitude de l'apprentissage machine à identifier des candidats inattendus similaires à des médicaments et qui possèdent une activité a constitué un énorme bond en avant.
Bien que passionnant, ce type de résultat est encore rare. Toutefois, l'apprentissage machine permet plus souvent aux chercheurs de faire un tri dans de vastes ensembles de composés thérapeutiques potentiels afin d'identifier ceux les plus pertinents par rapport aux cibles visées. Cette hiérarchisation in silico des candidats à la synthèse et aux tests réduit considérablement le coût par piste pour les équipes de chercheurs de médicaments en diminuant nettement le nombre de molécules préparées ou achetées.
Ces avantages et les aspirations encore plus ambitieuses concernant l'apprentissage machine dans la recherche de médicaments, ne peuvent toutefois se concrétiser à plus grande échelle que si on peut faire appel à des algorithmes qui produiront régulièrement des prédictions de bioactivité précises. Comment renforcer l'approche par apprentissage machine pour augmenter la précision et la fiabilité de ces prédictions ? Comme l'ont démontré des recherches utilisant les données de CAS sur les substances récemment publiées dans le Journal of Chemical Information and Modeling, la réponse pourrait vous surprendre : il s'agit d'un chimiste humain.
Lisez l'intégralité de l'article Impact of Chemist-In-The-Loop Molecular Representations on Machine Learning Outcomes pour découvrir les données qui montrent comment les empreintes digitales moléculaires organisées par des chimistes ont impacté la précision des prédictions.
Données, descripteurs et algorithmes : le trio qui entraîne le succès des prédictions
On considère souvent les algorithmes comme le composant le plus important de l'apprentissage machine et, de toute évidence, ils sont essentiels. On consacre une énergie considérable à la construction, au test et à l'optimisation d'approches algorithmiques pour modéliser chaque situation intéressante. Toutefois, je dirais que la qualité des données reste le facteur le plus important pour élaborer des modèles d'apprentissage machine fiables. Lorsque, pour des raisons de manque de disponibilité, d'organisation ou de diversité, les données disponibles ne reflètent pas avec précision l'univers de possibilités que l'algorithme devrait envisager, le raffinement de l'algorithme est gaspillé. Pour alimenter une approche algorithmique de l'évaluation des candidats médicaments potentiels, il est très important de disposer d'un ensemble propre et complet de propriétés structurelles, biologiques et physiques. Le REGISTRE CAS®, qui contient actuellement des données concernant plus de 166 millions de petites molécules, organisées par des scientifiques qui s'appuient sur plus de 100 ans de littérature scientifique et de brevets publiés, est une excellente base pour les données utilisées dans ce type de travail.
Il existe cependant un autre composant critique de la chimie prédictive qui a longtemps été négligé, mais qui a récemment attiré plus d'attention : les descripteurs moléculaires. Également appelés fréquemment empreintes digitales moléculaires, comme leur nom l'indique, les descripteurs moléculaires décrivent les fonctionnalités majeures de chaque molécule chimique pour l'algorithme. Les milliers de fonctionnalités potentielles d'une candidate molécule comprennent le nombre d'atomes, le type d'atome et la configuration des liaisons. Toutefois, les fonctionnalités les plus pertinentes pour les résultats des prédictions varient en fonction de l'objectif de l'algorithme. Malgré cela, la plupart des efforts de l'apprentissage machine actuel s'appuient sur un ensemble générique de descripteurs moléculaires.Certains des descripteurs les plus populaires (inclus dans les empreintes digitales de connectivité étendue) sont basés sur l'algorithme de Morgan, développé chez CAS au début des années 1960 par Harry Morgan.Même s'ils constituent un bon point de départ, nos recherches ont démontré qu'une empreinte digitale améliorée récemment développée par CAS et qui inclut plus de 25 000 fonctions structurelles sélectionnées par notre équipe de chimistes améliore systématiquement la précision des prédictions de bioactivité.
Transformer les chimistes en tailleurs génère des prédictions mieux adaptées
Nos recherches récemment publiées se concentraient sur la comparaison de l'exactitude des prédictions de bioactivité en utilisant un certain nombre de descripteurs génériques courants à ceux qui utilisent ces nouveaux descripteurs développés en exploitant l'expertise des chimistes de CAS pour ajouter une richesse fonctionnelle supplémentaire, adaptée à de nombreuses applications d'apprentissage machine. Dans un souci de simplicité, nous avons surnommé ces descripteurs organisés par les chimistes "empreintes digitales CAS". Les résultats de l'étude indiquent que les empreintes digitales CAS, lorsqu'elles sont utilisées pour prédire la bioactivité d'un large ensemble de critères sur 88 cibles diverses, surpassent les descripteurs moléculaires couramment utilisés comme les empreintes digitales ECFP (Morgan), Avalon, Atom Pair et Topological Torsion. Basée sur ROC-AUC et PRC-AUC, l'empreinte digitale CAS exclusive présentait le classement moyen le plus élevé dans les modèles d'apprentissage machine aléatoires.
Les tests préliminaires indiquent que des gains de précision supplémentaires sont possibles lorsque les chimistes personnalisent davantage les fonctionnalités utilisées dans ces empreintes digitales améliorées par CAS et largement applicables à chaque application algorithmique individuelle. Ces empreintes digitales personnalisées sont créées en sélectionnant les fonctions les plus informatives pour les cibles d'intérêt. Différentes techniques de réduction de dimensionnalité, comme l'analyse des composants principaux, peuvent être utilisées pour améliorer encore la précision, la stabilité et l'évolutivité des modèles prédictifs. L'analyse de l'importance des fonctionnalités peut aussi servir à obtenir des informations supplémentaires sur les éléments les plus pertinents pour l'activité biologique, créant une boucle virtuelle d'optimisation.
Même si ces gains initiaux de précision et d'autres possibilités sont fascinants, la découverte peut-être la plus intéressante réalisée grâce à ces travaux concerne l'impact démontré de l'empreinte digitale CAS sur la diversité des résultats prédictifs. Cela démontre qu'elle pourrait aussi avoir un impact positif sur l'innovation. L'empreinte digitale CAS identifie souvent des structures actives radicalement différentes de celles prévues par les modèles élaborés avec des descripteurs moléculaires plus génériques et plus courants. Comme on peut le voir dans la Figure 1 ci-dessous, la corrélation entre l'empreinte digitale CAS et les autres modèles testés est très faible. L'empreinte digitale CAS capture donc les signaux chimiques orthogonaux qui fournissent des informations uniques non communiquées par les autres descripteurs moléculaires d'usage courant.
https://pubs.acs.org/doi/full/10.1021/acs.jcim.0c00193)" data-entity-type="file" data-entity-uuid="ef1380cd-994a-4c43-8fff-8c75895588f2" src="/sites/default/files/inline-images/test%20cas_correlation%5B1%5D.png" />
Applications plus larges des descripteurs moléculaires améliorés
Les descripteurs moléculaires personnalisés possèdent des applications supplémentaires dans le cadre d'un flux de travail de R&D mis à l'échelle et activé par l'apprentissage machine. Par exemple, lors des phases initiales de la découverte, il est hautement souhaitable d'identifier un ensemble de composés structurellement divers possédant une activité similaire, mais contenant des structures centrales différentes (par ex. saut d'une structure à l'autre), car les médicaments structurellement nouveaux se sont avérés plus de deux fois plus susceptibles d'obtenir la désignation de traitement innovant par la FDA. Le potentiel de saut d'une structure à l'autre est considéré comme une aptitude importante pour les méthodes d'apprentissage machine. Toutefois, le potentiel de récupération de molécules structurellement diverses varie selon l'empreinte digitale. Des analyses préliminaires ont montré que l'empreinte digitale CAS possède un meilleur potentiel de saut d'une structure à l'autre que toute autre empreinte digitale d'usage courant.Ce facteur est important pour découvrir de toutes nouvelles catégories de candidats ou pour évaluer avec précision l'activité de pools de candidats structurellement variés.
L'approche de tri étayé par l'apprentissage machine décrite ci-dessus peut aussi être utilisée pour sélectionner de manière proactive tous les nouveaux composés qui entrent dans les jeux de données internes, mais aussi externes, y compris le REGISTRE CAS, pour examiner leur activité potentielle par rapport au portefeuille de cibles prioritaires d'une entreprise. En organisant ces modèles d'apprentissage machine spécifiques à des cibles dans des pipelines, cette approche permet de faire entrer en continu les candidats les plus puissants dans le pipeline. De plus, ces cas d'usage ne se limitent pas à l'administration de médicaments. Les approches évoquées ici qui s'appuient sur l'apprentissage machine pour identifier, sélectionner et hiérarchiser les candidats composés sont également adoptées dans d'autres applications chimiques, notamment pour le développement de nouveaux pesticides.
Avez-vous des commentaires au sujet d'autres applications importantes des descripteurs moléculaires améliorés ou personnalisés dans la recherche de médicaments ou d'autres utilisations chimiques ? Faites-nous part de vos idées dans la zone de commentaires ci-dessous ou prenez contact avec notre équipe Services personnalisés.