究極のプライバシーと言えば、なんと言ってもゲノム情報です。ゲノム情報を効果的に解析できれば、重篤な疾患を治すことができるかもしれませんが、使い方を間違えば、重大なプライバシー侵害になる恐れがあります。このジレンマを解決する方法=秘匿ゲノム検索とは何か?その概要について、教えていただきました。
究極の個人情報=ゲノム情報を守りながら研究するには~暗号化したまま検索
DNAは4種の塩基が鎖状につながった物質のため、4種類の文字から構成される文章として表現することができます。
この文章にはいわば“生命を創るための設計図”が記述されているため、これを解析することによって、生物学や医学に関する重要な知見が得られます。
近年、DNAを分析してゲノム配列を決定する装置(シークエンサー)の性能が飛躍的に向上しています。
1990年から約10年の歳月を費やして行われた「ヒトゲノム計画」では、30億ドルもの費用を投じてヒトの全ゲノム配列を決定しましたが、新型装置の普及によって劇的にコストが下がり、現在ではわずか1000ドルで同様の情報を得ることができます。
では、大量のヒトゲノム配列を解析して、有用な知見を発見できるようになったかというと、なかなかそうはいきません。最大の障壁の1つが、プライバシー問題です。
ゲノムは個人に固有の情報であるため、IDとしての役割を果たします。それと同時に、個人の特徴を示す情報も含みます。また、遺伝する性質を持つため、血縁者の情報まで含みます。このような性質を持つデータは他に類がなく、それゆえにゲノム情報は究極のプライバシーと考えられているのです。
現状では、このような情報をうまく取り扱う仕組みが確立されていないため、ゲノム情報は様々な組織に囲い込まれて孤立しています。研究者の間で情報が共有されなければ、せっかく大量にあるデータが十分に活用されません。
例えば、研究者が患者さんのゲノム配列をデータベースと照合して、疾患の原因を解析するケースを考えましょう。検索に用いるゲノム配列は患者さんのプライバシーを守るため秘密の情報です。一方、データベースに保存されているゲノム配列も秘密の情報です。この場合、患者さんのゲノム情報を守ろうとすると、研究者はデータベース検索ができません。
私たちは、このようなジレンマを解決するために、データを暗号化し、すべての処理を暗号化したまま行う秘匿ゲノム検索の研究に取り組んでいます。ちょっと複雑ですがこの研究では、加法準同型暗号と呼ばれる暗号方式を使います。
この暗号方式はただ単純に値を暗号化するだけでなく、暗号化した値同士を作用させると暗号化する前の値同士の加算を計算できるという、とても特殊な性質を持っています。平たく言ってしまうと暗号化したまま足し算ができるのです。私たちは、この“安全な足し算”をうまく組み合わせることによって、ゲノム配列を隠したまま検索結果だけを得る技術を開発しました。
秘匿ゲノム検索を用いると、例えば次のような検索ができます。ある患者さんのゲノム配列の左から2番目の文字が‘A’だったとします。そこで担当のお医者さんがデータベースに対して、同じ特徴を持つゲノム配列が糖尿病に関連している割合はどのくらいなのかと問い合わせてみたとします。そうするとデータベースはその質問の内容を全く見ないまま、教えてもよい検索結果だけをお医者さんに知らせることができます。この場合は、問い合わせのワードは2とAで、データベースはこの2とAを知ることなく30%と答えることができます。
秘匿ゲノム検索の技術開発が進めば、ヒトゲノムデータの有効活用につながります。それによって、生物学・医学の研究がより発展することを期待しています。