합성 계획 용도를 지원하는 머신 러닝 모델은 트레이닝 과정에서 나타나는 화학 분야로 제한되는 것이 일반적이며 데이터가 많지 않은 화학 관련 하위 분야에서는 예측의 정확도와 다양성이 낮아지는 경우가 많습니다. 서로 다른 데이터세트가 트레이닝 대상 모델의 성능에 미치는 영향을 측정함으로써 합성 계획 솔루션의 예상 범위와 참신성을 보다 정확하게 평가하고 과거 어려운 과학 영역에 접근할 수 있는 데이터세트를 설계할 수 있습니다.
이 연구에서는 Bayer 과학자들이 과학자가 엄선한 CAS 컨텐츠 컬렉션의 반응 데이터가 합성 계획 모델의 예측 성능에 미친 중대한 영향을 입증합니다. 드문 반응 유형의 결과에 대한 예측 정확도가 32%로 크게 향상되어 새롭고 유용한 화학 분야에 대한 이해도를 높였습니다.
데이터세트를 설계하여 까다로운 과학 영역에 도전하려면 CAS Insights 보고서를 요청하거나 CAS 맞춤 서비스팀에 문의하십시오.
이 CAS Insights 보고서는 Bayer 과학자와 함께 작성되었습니다.
저자:
- Miriam Wollenhaupt, 박사, 컴퓨터 화학자, Bayer AG
- Martín Villalba, 박사, 전문 응용 수학, Bayer AG
- Orr Ravitz, 박사, 합성 계획 솔루션, CAS