生命情報科学とは、コンピュータの高度な情報処理技術を利用して、様々な生命現象の解明を目指す分野です。大上先生は、十万種類以上あるタンパク質分子の物理現象を計算式で表し、それをコンピュータで高速計算することで、人間の生命現象の解明や病気の対策に役立てています。
高速計算でタンパク質の複合体形成を予測!
私たち人間の身体の2割を占めていると言われている様々な種類のタンパク質。血液中にあるヘモグロビン、唾液の中にあるアミラーゼ、お肌に嬉しい!?コラーゲン、これらはみんなタンパク質の一種で、私たちの体の中でDNAの情報に従って作られています。DNAは4種類の塩基が並んで出てきており、この配列がそのままタンパク質の設計図となります。塩基配列に基づいて20種類のアミノ酸が一列に繋ぎ合わさり、そこで初めて人間の体に作用するタンパク質という物質になるのです。
十万種類以上もあるタンパク質は、別種のタンパク質と結合して複合体を形成します。これを、タンパク質間相互作用(Protein-Protein Interaction)と言います。
複合体を形成する組み合わせや条件はまだ明らかになっていません。実験しようにも、50億通り以上の組み合わせをすべてしらみつぶしに実験するのは不可能です。そこで私は複合体形成をコンピュータでシミュレーションし、どのタンパク質がどのタンパク質と相互作用するのかを予測する研究をしています。
どのタンパク質同士が相互作用するのかを予測するために、まずは2つのタンパク質がくっついた時の複合体の構造がどうなっているのかを計算で割り出します。2種類のタンパク質を関数で表し、片方のタンパク質を少しずつ平行移動させながら少しずつ回転させるという計算をします。移動・回転するごとに2つの関数を掛け算し、最後にすべて足す、「畳み込み」という式で計算しています。
この計算をすることで、複合体形成時の熱力学的な値や結合エネルギーの値(スコア)を算出することができます。スコアが高ければ高いほど、くっつき方がしっくりしているということです。しかしこの「畳み込み」は計算が膨大なので、「高速フーリエ変換」という先人の知恵=賢いアルゴリズムを使って、コンピュータで高速に計算しています。
こうして、複合体形成時の「最も良いスコア」が得られる場所がわかれば、2種類のタンパク質がどのようにくっつき合うのかがわかり、さらにどのタンパク質同士がくっつきやすいのか予測を立てることが可能になります。しかし、「最も良いスコア」だけを予測の根拠にするのは危険です。複合体を形成する時の物理の法則は、ファンデルワールス力、クーロン力、水素結合、……など、いろいろあるからです。そこで私は、「最も良いスコア」だけに頼るのではなく、「2番目に良いスコア」、「3番目に良いスコア」、……なども考慮に入れて、いくつものデータを総合的に判断することで、精度の高い予測を実現しました。
実際にその予測ができるソフトウェア「MEGADOCK」も開発しました。数理モデル化と賢いアルゴリズムによって、1台のパソコンでも速く計算することができます。また、東工大には「TSUBAME」という大きなスーパーコンピュータがあります。この大きな計算機でうまく並列化することによって、1日に100万件ほどの予測ができるようになりました。
50億通りすべてを計算し尽くすにはまだ長い道のりですが、様々な疾病メカニズムの解明や創薬に役立てることができるこの研究を、一歩ずつ進めていきたいと思います。
『シュタインズ・ゲート』『シュタインズ・ゲート・ゼロ』(TVアニメ)
アニメとして単純に面白いですが、科学の要素があちこちにあります。時間移動が可能でパラレルワールド説が仮定された中で、なぜこの現象に至るのか・伏線があったのか、考えながら視聴すると楽しいです。あまりバイオインフォマティクスとの直接の関係はありませんが、脳科学と情報科学が関係しており、境界分野の楽しさを味わえると思います。