Sequence analysis for drug discovery

NullSet Informatics Solutions社創設者、ジェファーソン・パーカー博士との対談

創薬で計算生物学が進歩し続けている中、新しい課題や可能性も絶えず発生しています。配列解析は、長い間、バイオインフォマティクスの主要な側面でした。本記事では、ライフサイエンス分野におけるデータ解析の専門家であるNullSet Informatics Solutions社創設者のジェファーソン・パーカー博士に、創薬での配列解析の新境地についてお話を伺いました。

CAS：計算生物学者として、博士は創薬において今までどういった役割に携わってこられたのですか。

ジェファーソン：創薬ラボの支援からトランスレーショナルリサーチのグループまで、あらゆることをやってきました。 最近では、臨床チームの運営や開発に携わりました。医薬品安全対策チームを安全性データ分析でサポートしたり、事業開発や競合情報にも携わりました。また、バイオインフォマティクスのアナリストとして、ソフトウェア開発チームの一員になったこともあります。これは、言うなればウェットラボの科学者とソフトウェア開発者の間の通訳のような立場です。

CAS：創薬における配列解析の役割について教えてください。それが重要なのはなぜですか。

ジェファーソン：まず探索では、ターゲットの探索スクリーニングに配列解析が使用できます。 転写学レベルで何が起こっているかを調べて、把握している経路の知識をもとに、それをマッピングして「上流の原因で最も可能性の高いのは何か」と聞きます。それが創薬ターゲットの候補、あるいはシグナル伝達の意味合いで創薬ターゲットに近いものになります。特定の標的のために設計された薬剤であれば、その標的が当たっているかの確認に役立つかもしれません。

また、患者選択バイオマーカーを探索することもできます。発現レベルまたはDNA配列レベルで、さまざまな変異を有する特定の遺伝子プロファイルは存在するのか。薬が効きやすくなったり、効きにくくなったりするような特定の変異は患者に存在しているのか。これは製薬業界において非常にエキサイティングで、活発に研究されている分野です。治療を始める前に、この薬は効くのか、それとも効果はないのか。これがある程度わかっていると、治療の結果が大きく左右されます。さらに、患者の貴重な時間を無駄にすることもありません。特に腫瘍学のように、患者に残された時間が少ない分野では、試行錯誤や、効かない薬を何度も投与して時間を無駄にすることがなくなります。

これらすべてが配列解析に関係しているのです。医薬品開発プロセスのあらゆる側面に関わることなのです。

CAS：配列解析における最大の課題は、どこにあると思いますか。

ジェファーソン：技術は年々進歩しているので、課題は急速に減少していると言えるでしょう。 以前は、ショートリードしかなく、そこからのアセンブリは大変でした。現在ではロングリードもあり、アセンブリは今でも難題ですが、以前ほどではありません。

例えば『戦争と平和』をシュレッダーにかけたとします。ページの断片は数ミリx数センチになってしまっています。そんな断片から本に戻すのは非常に困難です。でもページの断片がもっと大きく、長く、単語の断片ではなく段落の塊が見えるなら、物語を正しい順序で組み立てるのはずっと簡単になります。それが、ますますロングなリードに移行してきている現在の状況です。

ただ、ストレージはいまだに問題です。最近私が担当した仕事でも、配列データを移動する必要がありましたが、ハードディスクに保存したうえでFedExの箱に入れて郵送するのが最も速い方法でした。何百ギガバイト、何テラバイトものデータをインターネットで移動させるよりも、箱に入れて発送した方が早いのです。ローカルストレージは問題ではありません。大変なのは膨大な量のデータを別の場所に転送するときです。最近では、データを移動さえしてしまえば、配列解析のための演算のパワーはなんとかなります。でもそのデータをそこまで持ってくる移動のほうがボトルネックになるのです。

患者由来の検体も課題のひとつです。それは苦痛であり、生検は侵襲的であるため、病人は何度も検体を提供することを望んでいません。いったん採取された検体は、一般的にホルマリン固定され、パラフィン包埋されるため、核酸物質はどうしてもある程度分解してしまいます。そういう状態の検体組織からなんとか抽出して、それを使って配列解析する方法はあるわけですが、配列の質は必ず劣化します。

それに小規模な会社の場合、この技術は高価です。この機械はものすごくお金がかかるのです。同様に、計算生物学者はかなり一般的になりつつあると言っても、どこにでもいるわけではありません。大体みんなが、一番大きくと一番優秀で、一番高収入の研究所に行きたがります。人材は増加しているのに、まだ限られているのです。

ある意味、誰も配列解析に取り組みたいと思わなくなってきているというわけです。みんな、次のすばらしい学習モデルを開発したいのです。数値計算やデータ解析よりも、今は高度なAIやMLというわけです。誰もがホットな、最新のピカピカの技術に取り組みたがっている。そしてそれは、配列解析ではないのです。だからこれも、今後の課題となるでしょうね。

CAS：配列解析をするのに、いま本当に計算生物学者が必要なのでしょうか。

ジェファーソン：もし、型にはまった、十分に確立された方法論をやるだけであれば、十分に開発済みで、検証済みで、そして文書化済みのことをするだけなら、必要はないです。革新的な方法を生み出せる人材は必要ないのです。いろんな種類のシーケンサーから入力データを取り込める、既製のソフトウェアソリューションもたくさんあります。データを読み込んで、処理したいパイプラインのアイコンをドラッグアンドドロップして、実行ボタンを押すだけです。で、後はコーヒーを飲みに行ったり、ランチをとったり、あるいは機械の規模によっては、いったん家に帰って翌日また戻ってくれば、処理は完了しています。私みたいな人間は必要ないのです。技術に詳しい研究員なら誰でもできます。

ただし、その一方で、最先端のシーケンサーを使って、今まで行われたことがないような新しい解析手法を導き出そうとするのなら、既製のソリューションでは対応できません。そこには、生物学を理解している人、入力データと出力データと数学と、そしてその他もろもろを理解している人が必要になります。そういったことをすべてまとめて、既存のソリューションにはない新たなソリューションに統合するには、そのときには断片をすべて理解している「私」、または私のような人間が必要になります。

CAS：今は、みんなAIやMLを使いたがっているという事ですが、これらの技術は配列解析に役立つのでしょうか。

ジェファーソン：適切に精選されたデータセットがあれば、AIやMLは間違いなく役に立ちます。 実際に、機械学習技術を応用して文献を消化し、ナレッジグラフを構築している組織を知っています。ですから間違いなく何らかの役割を担うでしょう。 AIと機械学習は、配列のアセンブリには役立つでしょうか。おそらく。でもそれが過剰かどうかは私にはわかりません。

CAS：AIといえば、タンパク質の構造をAI予測するAlphaFoldについてはどう思われますか。

ジェファーソン：AlphaFoldはまったく画期的だと思います。 これで構造への道が格段に縮まり、それをコンピューター支援の薬剤設計などへ、従来よりずっと速く渡すことができるようになります。もうNMRや結晶構造から始める必要もありません。それは、結晶構造と同じくらい良いものなのでしょうか？おそらく違います。実際に測定されたものは、シミュレーションよりも絶対に良い。しかし、時間の面で考えると、これならすぐに利用可能なものが手に入ります。これは今後、わたしたちが見たこともないような影響を与えるでしょう。私が感じているのは、AlphaFoldは一石を投じた。そして、それは確かに影響があった。でもそれは最初の波紋にすぎないだろうということです。

CAS：創薬におけるAIとMLの最先端とは、何のことを指すのでしょうか。

ジェファーソン：空間的なものでしょう。次世代の単一細胞のようなものです。マルチオミクス解析です。 DNA、RNA、タンパク質、メタボロミクスを集めてきて、そしてそれらすべてをまとめるということです。さらに細胞経路や細胞間コミュニケーションとの統合すら可能です。もはや単一の細胞だけではないのです。ひとつの細胞、そしてその隣の細胞、さらにその隣の細胞。それらがどう相互作用しているのかということです。それが今後進む方向です。現在すでにその方向に進んでいます。

CAS：生物システムのモデルを作ることになると思いますか。

ジェファーソン：私が大学院にいたときにそう聞かれたら、私はきっと、人類は生物学的システムを記述できる数学など保有していない、と答えたでしょう。生物学は複雑な化学であり、化学は複雑な物理学であり、物理学は複雑な数学です。それがすべての基本になっています。物理学は数学的に解決可能な問題です。膨大なデータを必要とするだけです。化学も、ある程度は、同じです。しかし生物学は…。私は以前信じていたことは、生物学的システムを数学的にモデル化する能力は人間にはなかった、今後もないだろう、ということでした。

しかし今は、きっと私たちは、その方向に進まざるを得ないと思います。それには、量子コンピューターが必要になるでしょうか。そうかもしれません。私が生きている間ではないかもしれませんが、ある時点で人類は生体システムの正確かつ信頼できる計算シミュレーションを実現するだろうと、ある程度の自信をもって言えます。そしてこの自分の発言が、少し恐ろしく感じます。現在、デジタルツインの分野では数多くの研究がなされています。限定的な最初のステップではあります。でもデジタルツインはオンラインになっていて、そして現在臨床試験で使用されているのです。これが始まりのようなものです。

CAS：これらの最先端をさらに前進させるには、何が必要だと思いますか。新しいアルゴリズムや新たなフレームワークは必要でしょうか、それとも、まだすべてをまとめようとしているだけなのでしょうか。

ジェファーソン：全部だと思います。この問題に対する新しい考え方は必要です。 答えは、古いアルゴリズムを新しい設計方法に当てはめることかもしれないし、あるいは新しいアルゴリズムを実施することかもしれません。エピゲノミクスやDNAダイナミクスの研究、またはノンコーディングRNAの研究、エクソーム対その他すべてなどは、ただの配列解析とは違います。考え方が違うのです。それはまだ配列という枠組みの話ではあります。でも配列だけでもないのです。こういった、問題に対する異なった考え方には、異なった道具が必要になるのです。

CAS：魔法の杖を使えるとして、そして配列解析と創薬での問題を何かひとつ解決できるとしたら、何を解決しますか。そして、それはどのような影響をもたらすでしょうか。

ジェファーソン：すべてのデータを注釈付きで誰でも利用できるようにしたいです。 企業、研究機関、大学など、あらゆる所からのすべての専有データです。十分に注釈が付いていて、十分に文書化されていて、統一されたストレージプラットフォームにあって、そして誰でも自由に使える。 そうすればそれで十分になります。そして大きな問題を解決できるようになるでしょう。

Jefferson began his research career at MIT, exploring xenobiotic metabolism in the gram-positive soil bacterium Rhodococcus aetherovorans. He got into computing when faced with an overload of data trying to annotate the genome to develop DNA microarrays, and he’s been working at the intersection of biology, computing, and mathematics since. His career has taken him through small pharma, large pharma, and consulting organizations, including Novartis and Thomson Reuters. Along the way Jefferson acquired his Graduate Certificate in Applied Statistics from Pennsylvania State University and a master’s degree in computer science from Boston University.

Now, Jefferson is forging a new path with his own bioinformatics consulting company, NullSet Informatics Solutions providing data and analytics, data modeling, and technology project management services.

ライフサイエンスの研究を進展させるためのCASのビジョンはこちら

創薬における配列解析 - その課題と可能性

NullSet Informatics Solutions社創設者、ジェファーソン・パーカー博士との対談

CAS：計算生物学者として、博士は創薬において今までどういった役割に携わってこられたのですか。