Los modelos de aprendizaje automático diseñados para las aplicaciones de planificación de síntesis están generalmente limitados a la química que se ha visto en el entrenamiento, y la precisión y la diversidad de sus predicciones suelen ser inferiores en subespacios químicos poco poblados. Medir cómo afectan al rendimiento de los modelos entrenados diferentes conjuntos de datos nos permite realizar deducciones más sólidas sobre la cobertura y la novedad esperables para las soluciones de planificación de síntesis, además de diseñar conjuntos de datos que darán acceso a áreas de la ciencia tradicionalmente difíciles.
En este estudio, los científicos de Bayer demostraron el importante efecto que las reacciones seleccionadas por científicos en la CAS Content Collection puede tener en el poder predictivo de un modelo de planificación de síntesis. La precisión de la predicción de los resultados en clases de reacciones infrecuentes aumentó sustancialmente —un incremento de 32 puntos porcentuales— y contribuyó a mejorar la comprensión de áreas nuevas y útiles de la química.
Solicite el informe de CAS Insights o contacte con el equipo Custom Services para diseñar un conjunto de datos que abra la puerta a áreas de la ciencia tradicionalmente complejas.
Este informe de CAS Insights se ha publicado en colaboración con científicos de Bayer.
Autores:
- Dra. Miriam Wollenhaupt, química computacional, Bayer AG
- Dr. Martín Villalba, experto en matemáticas aplicadas, Bayer AG
- Dr. Orr Ravitz, soluciones de planificación de síntesis, CAS