合成プランニングアプリケーションを支える機械学習モデルは、トレーニング段階で認識した化学物質に大きく制限されており、化学の下位領域に入力された情報が少ないため、その予測の精度と多様性が往々にして低下します。 トレーニングを行ったモデルの性能に、さまざまなデータセットがどのような影響を与えるかを測定することで、合成計画ソリューションの予想対応範囲と新規性に関してより確固たる判断を下せるようになり、また従来は困難だった科学分野に対する可能性を広げるデータセットを設計できるようになります。
このバイエル社の科学者による研究では、CAS コンテンツコレクションから科学者が収集した反応情報が、合成プランニングモデルの予測能力に対していかに多大な影響があるかを明らかにしています。 希少な反応クラスにおける結果の予測精度は大きく(32%)向上しており、新しい有用な化学反応への理解を深めることに寄与しています。
困難な科学分野の可能性を広げるには、CAS Insights Reportをご活用ください。または、専用データセットの設計には、Custom Servicesチームにお問い合わせください。
本CAS Insights Reportはバイエル社の科学者の皆様との協力のもと公開されています。
著者:
- Miriam Wollenhaupt博士、 Bayer AG社計算化学者
- Martín Villalba 博士、 Bayer AG社応用数学専門家
- Orr Ravitz博士、 CAS合成プランニングソリューション部門