今まで以上に洗練されたアルゴリズムアプローチによってより高い精度が得られ、多様なデータセットにアクセスしやすくなり技術的な計算能力が高まるにつれ、創薬における機械学習(ML)技術の使用は理論的な可能性から現実世界の実用性にシフトしています。 ひとつに、抗生物質耐性菌を殺すのに効果的な新しいクラスの化合物を発見するためにMLを使用した、最近のMIT研究者の成功例があります。 抗生物質の革新においては構造の多様性に限度があり、これらの薬剤が標的とするメカニズムの数が少ないことを考えると、予期しなかった薬剤に似た候補物質を活性化して特定できるMLの能力は大きな前進でした。
楽しみですが、結果はまだ希少です。 しかし、もっと一般的な事として、MLを使用すると、研究者は潜在的な治療用化合物の大規模セットをスクリーニングして、対象ターゲットに最も強い関連があると予測される化合物を特定することができます。 合成とテストの候補に関するこのイン・シリコスクリーニングによる優先順位付けにより、準備や購入する分子のプールを絞ることで、創薬チームのリード単価を大幅に削減できます。
これらのベネフィット、そして創薬におけるMLの大望は、より大きなスケールでのみ実現可能ですが、アルゴリズムに対し、生物活性の正確な予測を一貫して提供できるという信頼が持てる場合のみに限ります。 これらの予測システムの精度と信頼性を高めるために、MLアプローチは何で増強できるでしょうか。 最近Journal of Chemical Information and Modelingに掲載されたCAS物質データを使用した研究で実証されたように、その答えは、人間の化学者です。その答えには驚くかもしれません。
化学者が精選した分子フィンガープリントが、予測精度にどのように影響したかを表すデータを見るには、ジャーナル記事Impact of Chemist-In-The-Loop Molecular Representations on Machine Learning Outcomes (機械学習の結果に対する化学者参加の分子表現の影響)の全文をお読みください。
データ、記述子、アルゴリズム:予測の成功を促進する3つの要素
アルゴリズムは、MLの最も重要なコンポーネントと見なされることも多く、明らかに重要な要素です。 関心のある各状況をモデル化するためのアルゴリズム的アプローチの構築し、テストし、最適化するために、広範なエネルギーを注ぎます。 しかし、信頼できるMLモデルを構築するための最も重要な要素は、データ品質ではないかと思うのです。 可用性、キュレーション、あるいは多様性の限界により、利用可能なデータがアルゴリズムが考慮すべき可能性の世界を正確に反映できない場合、アルゴリズムの知性は無駄になってしまいます。 可能性がある薬剤候補を評価するためのアルゴリズムアプローチを促進するには、構造的、生物学的、物理的特性を包括的に考慮したクリーンなセットを持つことが非常に重要です。 CAS REGISTRY®は現在、100年以上前からの公開された科学文献と特許をもとに科学者によって収集された1億6600万を超える小分子に関するデータを含んでおり、この種の研究の優れたデータ基盤として機能します。
しかしながら、長い間見過ごされてきた予測化学にはもう1つの重要な要素があります。最近注目が高まっているのが、分子記述子です。 一般的に分子の鑑別とも呼ばれています。その名が示すように、分子記述子は各化学分子の主要な特性をアルゴリズムに記述します。 候補分子の数多い潜在的特徴の中には、原子数、原子の種類、結合構成を含んだものがあります。 ただし、予測結果に最も関連する特性は、アルゴリズムの目的によって異なります。 それにもかかわらず、今日のMLの取り組みのほとんどが、分子記述子の一般的なセットに依存しています。最も人気の記述子のいくつかは(Extended Connectivity Fingerprintsに含まれる)は、CASで1960年代初頭、ハリー・モーガンによって開発されたモーガン・アルゴリズムに基づいています。これらは出発点として良いと思いますが、CASの研究によると、CASの化学者チームによって選択された25,000以上の構造的特徴を含む、CASが最近開発した強化フットプリントにより生物活性予測の精度を一貫して改善できる事がわかりました。
化学者を「仕立て屋」とすると、より確かな予測が得られる
CASが最近発表した研究では、多くのMLアプリケーションに適した豊富な特性を追加するために、いくつかの一般的な記述子を使用した生物活性予測の精度と、CAS化学者の専門知識を活用して開発されたこれらの新しい記述子を使用した生物活性予測の精度の比較に注目しました。 簡潔にするために、これらの化学者が精選した記述子をCASフットプリントとしました。 研究結果によると、88の多様なターゲットの大規模なベンチマークセットの生物活性の予測に使用する場合、CASフットプリントは、ECFP(モーガン)、Avalon、Atom Pair、Topological Torsionフットプリントといった一般的に使用される分子記述子よりも優れていることがわかりました。 ROC-AUCとPRC-AUCに基づくと、独自のCASフットプリントはランダムフォレストMLモデルで最高の平均ランクでした。
予備テストでは、化学者が、個々のアルゴリズムアプリケーションごとに、適用範囲の広いCAS拡張フットプリントで使用される特性をさらにカスタマイズすると、さらに精度向上が得られることがわかっています。 これらのカスタマイズフットプリントは、関心のあるターゲットに対して最も有益な特性を選択することで作られます。 主成分分析などのさまざまな次元削減手法を採用することで、予測モデルの精度、安定性、およびスケーラビリティをさらに向上させることができます。 特性重要性分析を採用することで、生物活性に最も関連のある要素にさらなる洞察が加わり、最適化の好循環を作り出します。
これらの初期精度の向上とさらなる可能性は嬉しい発見ですが、この作業で最も興味深い発見はおそらく、CASフットプリントによって実証された、予測結果の多様性に対する影響でしょう。 このことは、イノベーションにもプラスの影響を与える可能性を浮き彫りにしています。 CASフットプリントでは、よりゼネリックで一般的な分子記述子で構築されたモデルによって予測されたものとは大幅に異なるアクティブな構造が頻繁に検出されます。 下の図1が示すように、CASフットプリントと他のテスト済みモデルとの相関は非常に低くなっています。 したがって、CASフットプリントでは、他の一般的に使用される分子記述子では提供されない独自の洞察を示す直交の化学信号を捉えているのです。
https://pubs.acs.org/doi/full/10.1021/acs.jcim.0c00193)" data-entity-type="file" data-entity-uuid="ef1380cd-994a-4c43-8fff-8c75895588f2" src="/sites/default/files/inline-images/test%20cas_correlation%5B1%5D.png" />
強化分子記述子の幅広いアプリケーション
カスタマイズ分子記述子には、スケールアップされたML対応の研究開発ワークフローの一部として、追加アプリケーションがあります。 例えば、発見の初期段階では、同様の活性を有するが異なるコア構造(つまり、スキャフォールドホッピング)を含む、構造的に多様な化合物のセットを特定することが非常に望ましいのですが、これは構造的に新しい薬は、FDAによって画期的治療薬指定のステータスが付与される可能性が2倍以上高いためです。 スキャフォールドホッピングの可能性は、MLメソッドの重要な能力と見なされます。 ただし、構造的に多様な分子を取得する可能性はフットプリントによって異なります。 予備分析では、CASフットプリントは他の一般的に使用されるフットプリントよりも優れたスキャフォールドホッピングの可能性があることが示されています。これは、まったく新しいクラスの候補を発見したり、構造的に多様な候補プールのアクティビティを正確に評価するにあたり重要な要素となります。
上記のML装備のスクリーニングアプローチを使用して、CAS REGISTRYを含めた内外のデータセットに入力されているすべての新しい化合物について、優先ターゲットの組織のポートフォリオに対する潜在的アクティビティに関し事前にスクリーニングすることもできます。 これらのターゲット固有のMLモデルをパイプラインに組み込むことで、このアプローチは最も強力な候補をパイプラインに継続的に供給することができます。 このような使用例は、創薬に限るものではありません。 候補化合物の同定、スクリーニング、優先順位付けについてMLに依存するというここで説明したアプローチは、新規農薬の開発などその他の化学アプリケーションでも採用されています。
創薬または他の化学アプリケーションにおいて、強化またはカスタマイズ分子記述子のその他の効果的応用についてご意見はありませんか? 以下のコメント欄にお考えをお知らせらせください。またはカスタムサービスチームにご連絡ください。