AIと機械学習モデルは逆合成プランニングのサポートとなっていますが、これまでに学んだトレーニングデータにより限界があります。 この記事を参考に、鍵となる合成プランニングの取り組みを最適化するために、必要な多様性と品質を備えたデータを用意することで新たな予測を生成する方法についてご確認ください。
既存の薬の分子を進化させることは、創薬イノベーションの礎です。 しかし将来的には、構造的に新しい低分子のほうが、現在の薬物の応用よりも価値のある治療薬になる可能性があります。 2020年に承認された低分子薬の65%は構造的に新しいものでした。これらの分子は、FDAによって画期的治療薬に指定される可能性が2.5倍、そして発売後5年以内に大ヒットする薬になる可能性が2倍になっています。
しかし、新しい分子を合成するのは容易なことではありません。 逆合成予測ツールは、新しいアプローチの設計や生産効率の最適化のために不可欠なものとなっています。 これらのツールは、世界中の最新の研究成果を体系的に活用することで、より迅速な市場投入を可能にします。 また、価格やサプライヤーなど、特定の制約を設けて分子を構築することで、開発パイプライン全体のコスト削減を実現することもできます。
化学合成でのAIの活用が成功するかどうかは、データの質と多様性次第です。それらが欠けていれば、予測精度が妨げられます。 このことは、バイエル社が新規低分子の逆合成でAIの利用を最適化しようとしていた、最近の共同研究でも実証されています。 既存のトレーニングセットに当社の高品質で多様な反応データを追加したところ、希少反応クラスの予測精度を32%向上させることに成功したのです。
多様で正確なデータがAIモデルを成功に導く
化学合成プランニングの目標は、可能な限り多様で正確な合成経路セットを複数作成することです。 ただし、AIを適用して得られる質は、その基になるデータの質次第です。 予測力は、学習データの質、多様性、そして精度に依存しているのです。 特に課題になるのはデータの多様性です。なぜなら、学習データが一般的な化学領域にとどまらず、散在する化学の部分空間まで含めていなければ、AIはその範囲と新規性において限られた結果しか返せないからです。
CAS Reactionsは多様な反応データを提供します。それにより、合成プランニングの予測力が大きく向上します。 世界中の特許、雑誌、科学出版物から最も強固、そしてきめ細かい化学情報を収録したこのコレクションは、この10年間で2倍以上の規模になりました。 このキュレーションは機械学習と連動しながら現在も継続中で、今後もAI合成プランニングを強化し、充実させていきます。
より効率的な創薬を目指してバイエルとCASが協力、AIを最大限に活用
バイエルとCASの協力のもと、希少な反応型をターゲットにして広範囲な機械学習のトレーニングセットをCASデータで強化することにより、創薬AIモデルの予測力を飛躍的に向上させることができました。
このモデルは、予測された反応段階が成功する可能性が高いかを推定するニューラルネットワークよりなる、実現可能性フィルターで構成されています。 このネットワークは、既知反応のデータセットと、主に理論的な失敗反応のデータセットを使用してトレーニングされました。 また、それ以外にも実現可能性フィルターの予測能力を定量化するため、CASデータを用いた追加のトレーニング用データセットが作成されました。 CASの反応情報を追加することで、希少な反応クラスの精度が16%から48%、つまり32%も向上しました。
実現可能性フィルターでの精度が向上すると、パイプラインで相乗効果をもたらし、使用可能な反応が得られる確率も向上します。 この予測力の向上により、これまで予測モデルでは利用できなかった「稀な」カテゴリーも解放され、低分子創薬で今まで陰に隠れていた部分に光が差し込むようになり、新たな結果がもたらされるようになります。
これにより、科学者収集のCAS コンテンツコレクションTMの中規模程度の反応セットでさえ、合成計画ツールの予測力を大幅に向上することが実証されました。 今回は少数の反応に対して見られた効果ですが、すべてのテンプレートにおいて強力かつ高品質で多様なデータを用いて基本トレーニングセットをさらに増強すれば、より高い予測力が得られることが示唆されます。 この見事なコンセプトの実証は、特に新規の低分子薬の標的をより効率的に発見する上で、幅広い応用が期待されます。
- Pistoia Alliance Virtual Conferenceで行われた、CASのユガル・シャルマ博士とバイエル社のMartin Villalba博士のプレゼンテーションはこちらでご覧いただけます
- 『新しい化学の予測 - 高品質なトレーニングデータがもたらす反応結果の予測への影響』、ホワイトペーパーのダウンロードはこちらです
CASが貴組織の成果を最適化
CAS Custom ServicesSMでは、貴組織の機械学習を支援するトレーニングデータの構築を承っております。 貴組織の要件など、予測精度向上に関する詳細については、弊社チームにお問い合わせください。