化学分野における機械学習の探求 - トレンドと機会

Zach Baum , Information Scientist, CAS

machine learning hero image

この20年間で、人工知能(AI)、特に機械学習の進歩は、科学研究に対するアプローチの方法を大きく変革しました。 ゲノム配列のマッピングから、新しい抗生物質の発見、気候変動が地球に及ぼす影響のモデル化、さらには地球に似た惑星を探す銀河系マッピングに至るまで、AIはさまざまな分野の研究を一新しています。

化学も、AI導入で大きく飛躍している科学の分野のひとつです。 弊社の最新ホワイトペーパー『化学における人工知能 - 現在の展望状況と今後の機会』では、AIと化学の関連性について、独自技術を使って出版と特許の状勢を考察しました。 そしてAIを先導している化学の分野、あるいは今後AI技術を採用することで飛躍的な発展の可能性を秘めている分野はどれなのか、などを明らかにしました。

化学におけるAIはどこが成長したのか

AIに関わる化学の論文や特許は爆発的に増えており、2015年から2020年までの間に6倍に増加しています。 私どもは、主にどの分野でAI関連の論文や特許が多いのかを特定しました。そして、それらを比較することにより、この新しい技術が活用されている分野を把握することができました。 その結果、AI導入が進んでいる分野は、分析化学、生化学、工業化学・化学工学などでした。一方、AIを導入する機会がある分野には、天然物および有機化学などが挙げられます(図1)。

機械学習を使用している化学分野を示す複数グラフ
図1:全分野の中でAI関連論文の割合が最も高い分野

2000年から2020年にかけて、AIの利用が研究者の問題解決にどのように役立ったかを理解するために、これらの論文と特許の関係を調べました(図2)。 例えば、2000年代初頭から2014年にかけては、AIの論文や特許の焦点は、ヒトにおける疾病診断の探求から、遺伝的アルゴリズムそしてそれを創薬やマイクロRNAに応用することに移っていきました。

最近では、解決すべき問題の種類の変化に伴い、論文や特許もDNAメチル化、およびがん症へとシフトしています。 さらに最近では、COVID-19に関連した創薬に注目が集まっています。

2000年から2020年までのAI関連化学誌の論文と共起する概念の変遷を示したタイムライン
図2:2000年から2020年にかけてのAI関連化学ジャーナル出版物における共起概念の変遷

また予想通り、分析したAIの論文や特許の中では、低分子化合物が最も注目されていることがわかりました。 これには創薬、逆合成、反応最適化など、一般的に製薬会社による投資が多い分野が反映されています。

化学ではどんなところに機械学習の可能性があるのか

7万件以上の論文の分析では、第一研究分野と第二研究分野に注目し、学際的な貢献について調査しました(図3)。 これにより、各分野をヒートマップ上にプロットしました。色の濃さが各分野の貢献度の強さを表しています。 化学の分野内でAIを先導している分野と未開拓の分野が一目瞭然です。

プロセスに人工知能を使っている第一研究分野および第二研究分野のヒートマップを示す図表
図 3:ジャーナル文献に掲載された学際的研究の相対的普及率(列は第一研究分野、行は第二研究分野、各マスはそれぞれ第一研究分野と第二研究分野の学際的な組み合わせを示す)

例えば、分析化学や生化学では学際的な論文がより一般的になっています。これは、機械学習アルゴリズムがタンパク質、ペプチド、脂質、核酸の分析の向上をはじめ、化学反応の予測にも活用されていること、さらには新しい分子の発見にまで利用されているためです。 材料科学や物理化学の分野でもAIは広く活用されています。この2つの分野は、機能材料の予測や、構造特性関係、そして化学プロセス最適化などを目指しているためです。

化学分野へのAI導入の障壁

弊社ウェビナー『化学における人工知能 - 現在の状況と今後の機会』では、第一線の専門家がAI導入の潜在的な障壁について議論しました。 そこで特定された科学分野におけるAI導入の壁は次の3つです。

データ品質。最適な予測は、肯定的な例と否定的な例の両方をトレーニング用として提供できる、堅牢で高品質なデータセットに依存します。 現在の多くの組織にとって、データへのアクセス、データの正規化、そしてデータ準備は、深刻な課題になっています。

テクノロジー。コンピューティング処理能力は向上している一方(量子コンピューティングやクラウドベースのものなど)、ユーザーの視点からはまだ制限があると認識されています。 しかし、最近のソフトウェアやユーザーインターフェースの進歩によってプログラミング要件を必要としなくなり、その結果より多くの科学者が研究に機械学習を活用できるようになっています。

人材不足。データサイエンスの分野は、人材不足で有名です。そのため化学者は、現在のAIがいかに親しみやすいものであるかを理解していないかもしれません。 化学と他の科学分野との協力関係が深まることで、AIの統合が加速される可能性があります。

化学分野において機械学習が発達する機会

AIとトレーニング用データセットは、世界中の科学機関で問題解決やイノベーションに活用されており、データ解析や創薬に大きなチャンスをもたらしています。

CASの最近のホワイトペーパーでは、AI技術への投資によって恩恵を受ける可能性のある化学分野をいくつか明らかにしています。 導入の障壁はかつてないほど低くなっており、CASなどのパートナーも、分析に必要な大規模で高品質のデータセットへのアクセスを支援できます。 科学研究に人工知能を取り入れることで、早急に対応が必要な課題を解決できるほか、従来のデータ分析で可能ではなかったことまで大きく前進させることができます。

CASの分析結果とその考察については、ホワイトペーパーをご覧ください。また、AI技術による研究支援についてご質問がある場合は、CASにお問い合わせください。