A medida que los métodos algorítmicos más sofisticados ganan precisión, mejora el acceso a diversos conjuntos de datos y crece la potencia computacional, el uso de técnicas de aprendizaje automático en el descubrimiento de fármacos está dejando de ser una posibilidad teórica para convertirse en una utilidad real. Un buen ejemplo de esto es el reciente éxito de los investigadores del MIT, que usaron el aprendizaje automático para descubrir una nueva clase de compuestos eficaces para matar bacterias resistentes a los antibióticos. Puesto que en la innovación de los antibióticos la diversidad estructural es limitada por el bajo número de mecanismos con los que pueden interactuar estos fármacos, la capacidad del aprendizaje automático para identificar candidatos con potencial terapéutico inesperados que presenten actividad supuso un gigantesco paso adelante.
Pese a su evidente interés, ese uso sigue siendo poco frecuente. Es más habitual que el aprendizaje automático ayude a los investigadores a evaluar grandes conjuntos de compuestos con potencial terapéutico para identificar aquellos que, según las predicciones, pueden ser más potentes para las dianas de interés. Esta priorización in silico de los candidatos para la síntesis y los ensayos limita el conjunto de moléculas que se deben preparar o comprar y, de este modo, reduce significativamente el coste por molécula inicial para los equipos de descubrimiento de fármacos.
Sin embargo, estos beneficios, así como otros aún más ambiciosos relacionados con el uso del aprendizaje automático en el descubrimiento de fármacos, solo se pueden materializar a gran escala si se confía en que los algoritmos realicen sistemáticamente predicciones exactas de la bioactividad. ¿Con qué podemos complementar los métodos de aprendizaje automático para mejorar la precisión y la fiabilidad de las predicciones? Como ha demostrado la investigación basada en los datos de sustancias de CAS que se ha publicado hace poco en el Journal of Chemical Information and Modeling, la respuesta resulta sorprendente: con un químico humano.
Lea el artículo completo, Impact of Chemist-In-The-Loop Molecular Representations on Machine Learning Outcomes, para ver los datos que muestran cómo afectaron a la precisión de la predicción las huellas moleculares seleccionadas por químicos.
Datos, descriptores y algoritmos: el triplete que mejora el éxito de las predicciones
Con frecuencia, se piensa que los algoritmos son el componente más importante del aprendizaje automático y, obviamente, son esenciales. Se dedica una gran cantidad de energía a crear, probar y optimizar algoritmos para crear modelos de las situaciones de interés. Sin embargo, me atrevería a afirmar que la calidad de los datos es el factor más importante para crear modelos de aprendizaje automático fiables. Cuando, por falta de disponibilidad, selección o diversidad, los datos con los que se cuenta no reflejan de un modo preciso el universo de posibilidades que el algoritmo debería tener en cuenta, su sofisticación tiene poca utilidad. A fin de impulsar una estrategia algorítmica para evaluar fármacos con potencial terapéutico, es muy importante contar con un conjunto completo y limpio de propiedades estructurales, biológicas y físicas. CAS REGISTRY®, que actualmente contiene datos de más de 166 millones de moléculas pequeñas seleccionadas por científicos entre patentes y bibliografía científica publicadas a lo largo de más de 100 años, es una excelente fuente de datos para este tipo de trabajo.
No obstante, hay otro componente crítico para la química predictiva que hasta ahora se ha pasado por alto pero que, recientemente, está captando más atención: los descriptores moleculares. Como su propio nombre indica, los descriptores moleculares, también conocidos como huellas moleculares, proporcionan al algoritmo una descripción de las principales características de cada molécula química. Entre las miles de posibles características de una molécula candidata se encuentran el número de átomos, el tipo de átomos y la configuración de los enlaces. Sin embargo, las características más relevantes para los resultados predictivos varían en función del objetivo del algoritmo. A pesar de esto, la mayoría de las iniciativas de aprendizaje automático actuales siguen usando un conjunto genérico de descriptores moleculares.Algunos de los descriptores más populares (incluidos en Extended Connectivity Fingerprints) se basan en el algoritmo de Morgan, desarrollado en CAS a principios de la década de 1960 por Harry Morgan. Aunque son un buen punto de partida, nuestra investigación ha demostrado que una huella mejorada desarrollada recientemente por CAS que incluye más de 25 000 características estructurales seleccionadas por nuestro equipo de químicos mejora sistemáticamente la precisión de las predicciones de bioactividad.
Convertir a los químicos en sastres genera predicciones más exactas
La investigación que hemos publicado recientemente comparaba la precisión de las predicciones de bioactividad usando varios descriptores genéricos comunes con la que se obtenía usando los nuevos descriptores desarrollados aprovechando los conocimientos de los químicos de CAS para añadir más características adecuadas para numerosas aplicaciones de aprendizaje automático. Para mayor sencillez, bautizamos estos descriptores seleccionados por químicos como "huellas de CAS". Los resultados del estudio muestran que las huellas de CAS, cuando se usan para predecir la bioactividad de un conjunto grande de 88 moléculas variadas, obtienen un rendimiento superior al de descriptores moleculares como las huellas de ECFP (Morgan), Avalon, Atom Pair y Topological Torsion. Según las métricas ROC-AUC y PRC-AUC, la huella patentada por CAS obtuvo la clasificación media más alta en los modelos de aprendizaje automático de bosque aleatorio.
Las pruebas preliminares muestran que la precisión aumenta cuando los químicos personalizan las características utilizadas en estas huellas de CAS generales para cada aplicación algorítmica individual. Estas huellas personalizadas se crean seleccionando las características más informativas para las dianas buscadas. Diversas técnicas de reducción de la dimensionalidad, como el análisis de componentes principales, se pueden usar además para mejorar la precisión, la estabilidad y la escalabilidad de los modelos predictivos. También se puede recurrir al análisis de importancia de las características para obtener más información sobre los elementos más relevantes para la actividad biológica, lo que crea un círculo virtuoso de optimización.
Aunque estas mejoras iniciales de la precisión y estas nuevas posibilidades son interesantes, el hallazgo más relevante de este trabajo es probablemente el impacto demostrado de la huella de CAS en la diversidad de los resultados predictivos. Esto pone de manifiesto su potencial para impulsar también la innovación. La huella de CAS encuentra a menudo estructuras activas que son radicalmente distintas de las predichas por los modelos creados con descriptores moleculares más genéricos y comunes. Como se puede ver en la figura 1, la correlación entre la huella de CAS y otros modelos analizados es muy baja. Por tanto, la huella de CAS captura señales de química ortogonal que proporcionan información única que no aportan otros descriptores moleculares de uso común.
https://pubs.acs.org/doi/full/10.1021/acs.jcim.0c00193)" data-entity-type="file" data-entity-uuid="ef1380cd-994a-4c43-8fff-8c75895588f2" src="/sites/default/files/inline-images/test%20cas_correlation%5B1%5D.png" />
Otras aplicaciones de los descriptores moleculares mejorados
Los descriptores moleculares personalizados tienen otras aplicaciones en el marco de un flujo de trabajo de I+D basado en el aprendizaje automático de mayor escala. Por ejemplo, en las primeras fases del descubrimiento, es muy deseable identificar un conjunto de compuestos estructuralmente diversos que tengan una actividad similar pero contengan estructuras básicas diferentes (es decir, mediante modificación del andamiaje o "scaffold hopping"), ya que los fármacos estructuralmente novedosos tienen más del doble de probabilidad de obtener el estatus de terapia innovadora otorgado por la FDA. El potencial para aplicar la técnica de scaffold hopping se considera una capacidad importante para los métodos de aprendizaje automático. Sin embargo, las probabilidades de obtener moléculas estructuralmente diversas varía de unas huellas a otras. El análisis preliminar ha mostrado que la huella de CAS tiene un potencial superior para la técnica de scaffold hopping que otras huellas de uso común. Este es un factor importante para descubrir clases de candidatos totalmente nuevas o para evaluar de forma precisa la actividad de grupos de candidatos estructuralmente diversos.
La estrategia de cribado basada en el aprendizaje automático descrita anteriormente se puede usar también para evaluar todos los nuevos compuestos que llegan a los conjuntos de datos internos y externos, incluido CAS REGISTRY, con el fin de conocer su actividad potencial para las dianas prioritarias de la cartera de una organización. Si estos modelos de aprendizaje automático específicos de distintas dianas se organizan en líneas de investigación, esta estrategia puede suministrar constantemente los candidatos más prometedores a cada línea. Estos usos prácticos no se limitan a la administración de medicamentos. Estas estrategias que utilizan el aprendizaje automático para identificar, evaluar y priorizar compuestos se están adoptando también en otras aplicaciones químicas, como el desarrollo de nuevos pesticidas.
¿Se le ocurren otras aplicaciones interesantes de los descriptores moleculares mejorados o personalizados en el descubrimiento de fármacos o en otros campos de la química? Compártalas en la sección de comentarios o contacte con el equipo de CAS Custom Services.