Los modelos de IA y aprendizaje automático facilitan la planificación de la retrosíntesis, pero se ven limitados por los datos de formación que han recibido. Siga leyendo para descubrir cómo se pueden generar predicciones innovadoras contando con datos que tengan la diversidad y la calidad necesarias para optimizar las principales iniciativas de planificación de síntesis.
La evolución de las moléculas de fármacos ha sido la piedra angular de la innovación en el ámbito del descubrimiento de fármacos. Sin embargo, con vistas al futuro, las moléculas pequeñas estructuralmente novedosas pueden ser tratamientos más valiosos que las adaptaciones de los medicamentos actuales. Un 65 % de los fármacos de moléculas pequeñas aprobados en 2020 fueron estructuralmente novedosos, lo que ilustra el hecho de que estas moléculas tienen 2,5 veces más probabilidades de recibir la designación de terapia innovadora de la FDA y el doble de probabilidades de convertirse en medicamentos superventas en los cinco años siguientes a su lanzamiento.
Pero sintetizar moléculas novedosas no es sencillo. Las herramientas de predicción de retrosíntesis están empezando a ser esenciales para el diseño de nuevas estrategias y la optimización de la eficiencia de la producción. Estas herramientas aprovechan de forma sistemática investigaciones actualizadas de todo el mundo para acortar los plazos de comercialización. También se pueden obtener ahorros de costes durante el proceso de desarrollo creando moléculas con restricciones concretas, como el precio o los proveedores.
El éxito en la aplicación de la IA a la síntesis química se ve limitado por la calidad y la diversidad de los datos, dos factores que, de ser deficientes, reducen la precisión de las predicciones. Eso quedó demostrado en una colaboración reciente de CAS. Bayer deseaba optimizar el uso de la IA para la retrosíntesis de nuevas moléculas pequeñas. Mediante el enriquecimiento de su conjunto de entrenamiento con nuestros datos de reacciones diversos y de alta calidad, pudimos mejorar la precisión de las predicciones generadas para las clases de reacciones raras en 32 puntos porcentuales.
Los datos diversos y precisos impulsan el éxito de los modelos de IA
En la planificación de síntesis químicas, el objetivo es generar conjuntos de rutas de síntesis con el mayor grado posible de diversidad y precisión, pero las aplicaciones de IA solo son tan buenas como lo sean los datos subyacentes. El poder predictivo depende de la calidad, la diversidad y la precisión de los datos de entrenamiento. Uno de los principales desafíos es la diversidad de los datos, ya que si los datos de entrenamiento no representan subespacios químicos poco poblados, además de la química común, el alcance y la novedad de los resultados de la aplicación de IA serán limitados.
CAS Reactions ofrece una selección diversa de datos de reacciones que pueden tener un efecto notable en la capacidad predictiva de la planificación de la síntesis. La recopilación, cuyo tamaño se ha multiplicado por más de dos a lo largo de los últimos diez años, selecciona la información química más fiable y detallada de patentes, revistas y publicaciones científicas de todo el mundo. Esta selección se realiza continuamente y se combina con el aprendizaje automático para mejorar y enriquecer la planificación de síntesis con IA.
Bayer y CAS colaboran para optimizar la IA y mejorar la eficiencia del descubrimiento de fármacos
En una colaboración entre Bayer y CAS, un amplio conjunto de entrenamiento de aprendizaje automático se enriqueció con datos de CAS de tipos de reacciones raros para mejorar significativamente la capacidad predictiva del modelo de IA de descubrimiento de fármacos.
El modelo consta de un filtro de viabilidad compuesto por una red neuronal que estima si un paso de reacción predicho tiene probabilidades de éxito. La red se entrenó con un conjunto de datos de reacciones conocidas y un conjunto de reacciones fallidas predominantemente teórico. Se creó otro conjunto de datos de entrenamiento adicional con datos de CAS para cuantificar la capacidad predictiva del filtro de viabilidad. La adición de las reacciones de CAS aumentó la precisión en las clases de reacciones raras del 16 % al 48 %, un incremento de 32 puntos porcentuales.
Las mejoras de la precisión del filtro de viabilidad tienen un efecto multiplicador en el proceso y crean una tasa superior de reacciones utilizables. Esta capacidad predictiva mejorada abre la puerta a categorías “raras” que antes escapaban a los modelos predictivos y permite obtener resultados novedosos que arrojan luz sobre las áreas menos visibles del descubrimiento de fármacos de moléculas pequeñas.
Este estudio demuestra que incluso un conjunto moderadamente pequeño de reacciones seleccionadas por científicos en CAS Content CollectionTM puede mejorar sustancialmente el poder predictivo de una herramienta de planificación de síntesis. Este efecto se estudió en una clase pequeña de reacciones, lo que sugiere que ampliando el conjunto de entrenamiento básico con datos fiables, diversos y de alta calidad en todas las plantillas se podría aumentar aún más el poder predictivo. Esta impresionante prueba de concepto tiene numerosas aplicaciones, sobre todo para mejorar la eficiencia del descubrimiento de dianas farmacológicas de moléculas pequeñas novedosas.
- Vea la presentación que el Dr. Yugal Sharma de CAS y el Dr. Martín Villalba de Bayer realizaron en el congreso virtual de The Pistoia Alliance.
- Descargue el informe técnico: Predecir la nueva química: impacto de los datos de entrenamiento de alta calidad en la predicción de los resultados de las reacciones.
CAS puede optimizar sus resultados
CAS Custom ServicesSM puede diseñar conjuntos de datos de entrenamiento para impulsar sus iniciativas de aprendizaje automático. Contacte con nuestro equipo para analizar sus requisitos y mejorar la precisión de sus predicciones.