IR情報

本ページに掲載の情報は、2025年3月現在の内容です。

【第28回】生命科学とAI
 ~AIによるタンパク質構造解析の革新性と可能性~

2024年のノーベル化学賞には、タンパク質の立体構造を高精度に予測するAI技術の発展に貢献した3名の研究者が選ばれました。このAIモデルに「AlphaFold2」(アルファフォールド2)があります。ノーベル化学賞選考委員会の「かつて数年を要した作業がわずか数分で完了するようになった」という言葉が表すとおり、「AlphaFold2」はタンパク質の構造解析を革新的に進化させました。そして、これは序章でしかありません。今回は、「AlphaFold2」に代表されるAI技術が大きく広げつつある生命科学研究の近未来の可能性を追ってみたいと思います。

そもそも、タンパク質の構造解析はなぜ必要なの? どうして解析に時間がかかったの?

ヒトの体内には約10万種類のタンパク質が存在し、からだを構成するだけでなく、運動、酸素の運搬、病気の修復など多様な役割を担い、私たちの生命活動を支えています。この「生命活動」を理解するためには、その基本要素である「タンパク質」の解明が必要不可欠です。生命科学の新たな分野として、20世紀半ばごろから、タンパク質の立体構造を解明する「構造生物学」(構造生命科学)の研究が進められてきました。X線による構造解析や核磁気共鳴、低温電子顕微鏡等による観察で構造が明らかとなるタンパク質が徐々に増え、その情報は国際的な公共データベースである「タンパク質構造データバンク」(PDB)に集積されていきました。
しかし、幾重にも折り畳まれた構造の複雑さゆえに、タンパク質の「構造を明らかにする」ためだけで数年かかることも稀ではなく、多くの研究者たちが、これまで膨大な労力と時間を費やしてきました。

タンパク質の構造とはたらきの関係

タンパク質は、20種類のアミノ酸がさまざまな順序や数で鎖状に結合し、それが幾重にも折り畳まれて(下図のとおり)特定の構造を形成します。アミノ酸の違いによって折り畳まれ方も変わるため、タンパク質ごとに立体構造が異なり、それぞれ固有の機能を持ちます。つまり、タンパク質のはたらきは、その「形=立体構造」で決まります。この立体構造は極めて多種多様で、自然界全体に存在するタンパク質の種類は数億~数兆ともいわれています。

タンパク質の構造:一次構造(アミノ酸がつながったもの)→二次構造(一次構造がらせん状やシート状になったもの)→三次構造(二次構造の組合せの間を鎖がつないだもの)→四次構造(三次構造が集合したもの)

数年かかる作業を数分で完了させるなんて、「AlphaFold2」はまさに革命的ね!

AlphaFold2でタンパク質構造が予測できるなら、今まで苦労した構造解析は無駄だった? いいえ、決して無駄ではなく、むしろ、AIによる構造予測技術が発展するための重要な基盤となりました。日本は文部科学省が主導した国家プロジェクト『タンパク3000プロジェクト』で世界トップレベルのタンパク質構造解析データをPDBに蓄積しました。また、AIによる構造予測はあくまで「予測」ですので、最終的には実験的に確認する必要があります。

タンパク質の構造解析を加速させるために、1993年から「タンパク質立体構造予測コンテスト」(CASP)の隔年開催がスタートしました。それから約25年の時を経て、生命科学では全くの門外漢であったDeepMind社(現・GoogleDeepMind社)がこのコンテストで「AlphaFold」や改良版の「AlphaFold2」を発表し、圧倒的な成果を上げて連続優勝を果たしました。「AlphaFold2」は、AI技術を活用することで、短時間で精度の高い予測立体構造を得ることができる革命的な手法です。2021年にはプログラムがネット上に無料公開され、多くの研究者が利用し、その結果を用いた数多くの論文が発表されています。2024年には、「AlphaFold3」が公表され、精度をさらに高めるとともに、タンパク質と薬剤の複合体の構造の予測など新たな機能も加わっています。

タンパク質の構造解析が簡単にできるようになったこの先には、どんな未来がくるの?

「AlphaFold2」の基本的な特徴

「AlphaFold2」は、「タンパク質構造データバンク」(PDB)などに蓄積された膨大なデータをAIに機械学習させ、「どのような形ができるか」を予測することで、タンパク質の予測立体構造を導き出します。今後、コンピュータの処理能力のさらなる向上やAI技術のさらなる進化、PDBへの蓄積データのさらなる増加に伴って、予測の速度や精度が着実に向上していくことが見込まれます。
これまでタンパク質の「構造を解く」ことに費やされてきた多くの労力と時間をスキップし、今後は、本丸である「構造を使う」こと、すなわち、解析(予測)された構造を使って、生命活動の本質にアプローチしたり、新たなタンパク質を設計したりする、次のフェーズを飛躍的に加速させることができます。

タンパク質の「構造を使う」って、具体的にどんな未来なの?

生命活動の本質にアプローチしたり、独自のタンパク質を設計することで、これまでできなかったたくさんのことができるようになり、決して遠くない未来に、難病や環境問題、食糧問題といったさまざまな社会課題の解決につながっていくよ!

AIが導き出す答えの精度は、活用できるデータの質と量(正確な情報ができるだけたくさんあること)に左右されます。その意味で、「AlphaFold2」の成功は、多くの研究者の長年の努力の結集である「タンパク質構造データバンク」(PDB)なくしてはあり得なかったと言ってよいでしょう。今後、AIはさらに進歩し、基礎研究の在り方を大きく変えていくかもしれません。しかし、どのような変化が起ころうとも、“自らの研究活動を通じて、世の中の人々の幸せと豊かさの実現に貢献したい”と願う研究者一人ひとりの努力の集積こそが、これからもライフサイエンスの進歩を支え続けていくのだと信じています。

コスモ・バイオは、AI搭載の全自動ペプチド抗原デザインシステム「MODELAGON(TM)」で抗体作製を支援します。