Gain new perspectives for faster progress directly to your inbox.
イド・フリードバーグ博士 (アイオワ州立大学准教授)との対談
タンパク質の機能予測は、この10年間で著しい進歩を遂げてきました。これは、新しい機械学習や人工知能の計算方法の台頭と時期が一致しています。 この記事では、タンパク質機能予測の専門家であり、CAFA(Critical Assessment of Function Annotation)実験の共同主催者であるイド・フリードバーグ氏に、タンパク質機能予測モデルがどの程度正確なのか、またこの分野は次にどの方向に向かうのか、といったことについてお話を伺いました。
CAS:タンパク質の機能予測に興味を持ったのは、どういったきっかけだったのでしょうか。
イド:ポスドク時代に構造バイオインフォマティクスをやっていたときのことです。 タンパク質の構造を表現する別の方法をフラグメントやフラグメントライブラリーを用いて見つけようとしていて、構造と機能との関連付けをし始めていました。 そこで疑問だったのは、「配列と構造はどのように機能に関係するのか。 どうすれば配列と構造からタンパク質の機能をよりよく予測できるのか」ということでした。
当時、タンパク質の機能を予測するさまざまな方法が開発されていたので、もっと多くの人と話ができたらいいと思いました。ところが、それを専門的に行なっている会議は見つかりませんでした。 そこで自分で組織したのです。 2005年にデトロイトで開催されたIntelligent Systems for Molecular Biology (ISMB)のサテライト会議がそれです。その後、私たちは2006年にカリフォルニア大学サンディエゴ校(UCSD)で独自の単独カンファレンスを組織しました。 それ以来、ISMBの一部として、自動計算タンパク質機能予測会議というこの会議を開催してきたわけです。
CAS:博士が研究を始めてから、タンパク質の自動機能予測の分野はどのように発展しましたか。
イド:ここ数年で確実に進歩しています。 2010年、今はノースイースタン大学にいるプレドラグ・ラディヴォヤックと、ワシントン大学のショーン・D・ムーニー、そして私とで、配列や構造からタンパク質の機能を予測するCAFAコンペティションを始めました。 基本的な考え方は、タンパク質の特定配列とその機能を説明するオントロジー用語のセットとを関連付けて、タンパク質の機能の計算アノテーションを改善する方法を探すということになります。 CAFAに応募されたものの中に多様なアプローチと予測方法があることで、このコンペティションは、タンパク質機能予測のさまざまな方法を大きな規模で評価する実験にもなっています。
モデリングでは、Fmaxスコア(精度 - 再現曲線の最大調和平均)と呼ばれる指標を使って、モデルがどの程度正確に予測しているかを0から1(1が理想的)の尺度で表します。 CAFA 1では、Fmaxスコアは~0.5か、それを少し上回る程度でしたが、CAFA 4では~0.7になりました。 これは、オントロジーのアスペクトによって異なります。あるアスペクトは~0.7で、別のアスペクトは~0.4/0.5だったりしますが、だんだん良くはなって来ています。
最近はKaggleからのサポートによって、CAFA 5では1,675のチームがタンパク質の機能予測を競っています。 最終的な評価は2024年1月頃まで完了しませんが、3つのオントロジーで平均Fmaxが0.65に近づいています。つまり、遺伝子オントロジーの分子機能面で、誰かが〜0.8に到達しつつあるということです。
また、このような予測を確実に行うために必要な専門知識の種類(とそのアルゴリズムの背後にいる人々)も拡大しています。 CAFAのコミュニティには、バイオインフォマティクス、実験生物学、バイオキュレーション、そしてバイオオントロジーの専門家が参加しています。 その全員が、現在アクセスできているこの膨大なデータの管理を改善するために協力しています。
CAS:タンパク質の機能予測では、他よりも優れているアプローチはありますか。
イド:文献を見ていると、現在は何が良いのかある程度わかります。ただ、多少変化してきています。 過去に分子機能の予測に有効だったのは相同性転移でした。 リモートの相同遺伝子を検出するには、その方法の感度が高ければ高いほど効果的で、それに構造情報を加えることができれば、さらに良くなります。なぜなら、構造は配列よりも進化のずっと奥までさかのぼっているからです。 これらのモデルはその応用は比較的単刀直入でした。しかし当時からでもすでに、水面下では機械学習が活用され始めていました。
CAFA 3とCAFA 4の頃には、タンパク質とタンパク質配列を埋め込みとして表現して機能を予測する人がいました。 埋め込みはデータの多次元的表現で、これにより状況は一変されました。 古典的な予測では、タンパク質は文字列として表現され、モデルは文字列(タンパク質配列)間の類似性を探します。 埋め込みでは、Word2VecスタイルのモデルであるProtVecを使って、タンパク質の各部分の周囲のコンテキストを考慮した予測が行われます。 この種の表現は驚くほど感度が高く、非常に高い予測力があります。 今後、他にも何か見つけるかもしれませんが、現在のところは埋め込みで非常にうまくいっていると思います。
CAS:分子機能予測が向上している中、生物学的プロセスや細胞成分の予測はどの程度可能になっているのでしょうか。
イド:最初のCAFAでは、生物学的プロセスを予測しようとしても、低いスコアしか得られませんでした。全CAFAの分子機能予測スコアよりも低かったのです。 どういうことかと言うと、例えばあるタンパクがキナーゼであり、そしてそれはマウスではアポトーシスに関与していることがわかっているとします。 そこで、「人間でも同じ働きをするだろうか」と問題提起したとします。マウスと人間なら十分近いため、「はい、同じ働きをしています」と言うことができるでしょう。では、今度は人とショウジョウバエではどうでしょうか。 または酵母菌だったら? こういったときは、相同性移動が失敗する可能性があります。進化的に遠くなればなるほど、より多くの違いがみられるからです。
ただ、確実に改善はみられています。 私たちが試したことのひとつとして、予測者に、それぞれの予測方法を最もよく説明する単語を、キーワード群の中から選んでもらうというのがありました。 その結果、隠れたMarkovモデルやリモート相同性検索といったものが、分子機能の予測手法の上位を占めていることが分かりました。 ところが、生物学的プロセスについては、論文のテキストマイニングやゲノムコンテキストが上位を占めているのです。 つまり、全く異なった方法で予測をしているということです。
細胞成分の予測はあまり順調とは言えず、そこでその原因を調べています。 ひとつ言えることとして、オントロジーの構造自体、つまり細胞成分オントロジーが扱いにくいという点が挙げられます。 分子機能オントロジーのグラフをツリーとして、そして生物学的プロセスのオントロジーを整然とした階層的有向非巡回グラフと考えた場合、細胞成分は低木のようなものです。 構造が少し異なっており、そしてそれを表現する良い方法も現在のところないのです。 また、機能予測者の間でもあまり人気がありません。 おそらく、細胞成分の予測は、分子機能や生物学的プロセスの予測と同じくらい一流のものとして思われていないということなのでしょう。
CAS:この分野での主要なボトルネックには、どんなものがあるでしょうか。
イド:いろいろなもので、さらに多くが必要です。より多くの計算能力、より多くのアイデア、そしてより多くの研究対象のタンパク質。 機能をオントロジーとして表現するという考え方は、たとえば、構造をビー玉と3次元空間として表現するのとは異なります。 構造の場合は、ビー玉がいくつ必要かとか、それがどれほど正確か、といったことを議論できるでしょう。しかし、それはあくまでも有形のものを対象にしているのです。 それに対して、オントロジーは哲学から派生した用語です。現実に対する主観的な表現、と言えるほどです。 自然をどう理解するのか、そしてどこに重点をおいて研究するのか、そういった両方の意味において、時代とともに変化します。
CAFAでは、実際に「タンパク質の機能を予測するのではなく、バイオキュレーターが次に何をするかを予測しよう」と言ったグループがいたほどです。その回のCAFAでバイオキュレーターからの検証データにはどの機能があるか、つまりどの機能を優先的にキュレーションするかを予測したのです。 トップ10の方法論には入らなかったものの、それほど悪い結果でもありませんでした。 何らかの形で実験的に検証され、キュレーターによりデータセットに入力されていないものは、予測できないわけですから、何がキュレーションされているかは確かに重要です。
CAS:つまり、主なボトルネックのひとつは、計算に関わるものでも何でもなく、ウェットラボでどんな研究がなされ、そして発表されるかということなんですね。
イド:実験もそうだし、発表のされかたもそうです。なぜ結果をオントロジーとして直接発表しないのでしょうか。 新しいタンパク質配列の発見があったら、論文を書くときは、その配列をGenBankなどのリポジトリに提供することが求められます。 あるいは、新しいタンパク質の構造を発見したら、その構造をProtein Data Bankに提供しますが、その際にはその配列や構造を表現する方法について非常に厳格なルールが存在します。 同様に、タンパク質の機能をオントロジーとしてどのように表現するかについてもガイドラインが存在するべきで、私しては研究者はそのやり方を知っている必要があると思っています。
ところが、バイオキュレーターたちは、まあ至極当然なわけですが、「研究者はしないてもよい。 オントロジーの使い方をまったくわかっていない」と言います。しかしバイオキュレーションが現在のボトルネックになっているのです。 そこには、2つのグループが存在します。使い方を知っているからバイオキュレーターのみがするべきだという意見と、誰もがやるべきだけれども、アノテーションエラーが発生する可能性はあるだろう、という意見です。 正直に言って、どう解決すべきかは私にもわかりません。 オントロジーの使い方について、研究者へのもっとトレーニングさせれば良いという意見もありますが、適切なオントロジー用語や適切な関係を選ぶことについては、バイオキュレーターの方が遥かに良く理解しています。
CAS:自然言語処理モデル(NLP)における最近の進歩は、バイオキュレーションに利用できると思いますか。
イド:まだその段階ではないと思います。それを適切に実施するには、大規模な言語モデル以上のものが必要だと思います。 ルールは複雑です。だから人の手によってやっているのです。 人間は複雑な作業が得意ですが、NLPにとっては複雑すぎると思います。 もうひとつの問題は、オントロジーは関連付けが難しい場合があることです。特に新しく発見された機能については、常に正しいオントロジーの用語があるとは限りませんので、新しい用語を作り、適切なオントロジーに正しく配置する必要があります。
さらに、ハイスループットというボトルネックが存在します。 ハイスループット実験では多くのデータが生成されますが、ただしあくまでもその特定のアッセイのためのデータが生成されます。 つまり、そのデータは一般的に情報量が少ない内容だということです。 2013年にこの問題を調査しましたが、タンパク質のアノテーションデータベースは、ハイスループット実験の結果に対して非常に不均衡であるという結論になりました。
例えば、2000年代の後半に発表された、胚発生とC. elegansに関する一連の論文に注目しました。 胚発生に何が関与しているかを調査するために全ゲノム解析が行われましたが、その時は C. elegans に関する他の実験データはほとんどありませんでした。 そのため、この単独のデータから、モデルではC. elegansは胚発生しかおこなっていないという結論になりました。データにはそれ以上の情報がないからです。 ハイスループット実験によるこの種のバイアスは問題です。人為的な介入がなければ、モデルに非常に偏った世界観を与えてしまいます。
CAS:タンパク質の機能予測において、現時点では大きなチャンスはどんなものがあると思いますか。
イド:機械学習は間違いなく大きな変化をもたらすと思います。また、タンパク質配列や構造の表現もさまざまなものが登場するでしょう。 オントロジーという点では依然としてボトルネックがあるため、一部の研究者は、オントロジー自体を完全に見送って、「これは均質なクラスターだ。 自分にとってはこれは機能なのだ」と言います。AlphaFoldとESMFoldが存在し、その結果それなりの予測構造情報を取得できるので、それは役に立つでしょう。
加えて、より有効で高品質、そして情報量の多いデータを生成するためには、資金提供機関による意識的な努力が必要です。 私にとっては墓穴を掘ることになりますが、コンソーシアム助成金をもっと減らし、中小規模の助成金を充実させて、ポスドクや学生の参加を促して特定の機能の特性を明らかにし、科学のエコシステムに多様性を持たせるべきだと思います。
CAS:魔法の杖で、自分の分野の問題をどれかひとつ解決できるとしたら、何を解決したいですか。
イド:論文を自動的に、そして正確にキュレーションし、その情報を長期的に有効な計算表現に落とし込む能力が欲しいですね。 ただし、先ほども述べたように、現在このタスクを人力に頼っているのにはそれなりの理由があります。 遺伝子オントロジー、あるいはその他のオントロジーも、長期的に唯一の有効な表現であるとも必ずしも考えていませんが、しかし今のところこれ以上のものは思いつきません。 オントロジーを使った表現がボトルネックになっているので難しいわけですが、その一方、そんなことを言ったら人間の言語がボトルネックだと言ってるようなものなわけです。 これは哲学の話になってしまい、そうなると私にとっては専門外ですので、これ以上は申し上げられません。