医療ガバナンス学会 (2020年2月13日 06:00)
東京大学医科学研究所ヘルスインテリジェンスセンター
井元清哉
2020年2月13日 MRIC by 医療ガバナンス学会 発行 http://medg.jp
がんゲノムの解析は、がん細胞から採取したがんゲノムと同一患者から採取した対照正常細胞のゲノムを比較することで、がん細胞で起こっているゲノム変異を同定することから始まる。つまり、1名のがん患者から2名分(がんと正常)、もしくは複数の部位からがん細胞を取得するときはそれ以上のゲノムデータが得られ、それらを比較解析する。ここで同定されたゲノム変異をもとに、がんの特徴を明らかにする。
がんゲノム医療では、ゲノム変異に応じた抗がん剤の選択や治療方針が立案も行われるため極めて大切なデータ処理である。このプロジェクトで解析する2,800名のデータは、1つのデータセンターだけで解析を行うには当時の計算機能力では難しく、複数のデータセンターで分担して解析を行う必要があった。しかし、多くの場合、各データセンターには独自のゲノム変異同定のためのデータ解析法があり、各研究者は自分たちの解析法を使いたいと思っている。私も情報学者なのでその気持ちは良く分かる。
このプロジェクトの最初の仕事は、同じゲノムデータを解析しても手法によって結果がかなり異なることを明らかにしたことである。つまり、肺がんはデータセンターXの手法を用いて解析し、肝臓がんはデータセンターYの手法を用いて解析したとしよう。それらの結果(同定された変異)を比較したとしても、その違いが肺がんと肝臓がんというがん種による違いなのか、それとも解析法の違いなのかが分からないのである。これではがん種横断的な解析としては全く不十分である。
この問題を解決するために、各データセンターで同一の変異同定法を用いることになった。シカゴ大学スーパーコンピュータセンターやAmazon cloud (AWS) など世界の10ヶ所のゲノム解析で実績のあるスパコンセンターを連結し一つの巨大な計算機空間を作り出し、そこで2,800名分の全ゲノムデータを同一の手法で解析した。日本からは著者の所属する東京大学医科学研究所ヒトゲノム解析センターのスーパーコンピュータSHIROKANEが参画して協力した。
複数のスパコンを連結して巨大な計算機空間を構築する。簡単なものに聞こえるかも知れないが実はそうではない。それぞれのスーパーコンピュータを構成する CPUやディスク構成は異なり、オペレーティングシステム(OS)も様々である。そのような多様なスーパーコンピュータを連結するため仮想マシンと呼ばれる技術を導入し、どのスーパーコンピュータを用いても同一の計算環境をユーザーが使えるようにシステム構築した。しかし、その構築にあたって様々な問題に我々は直面した。
例えば、SHIROKANEは、ゲノムデータを高速に解析するためにLustreと呼ばれるファイルシステムを導入している。ところが仮想マシンを導入したところ、このLustreファイルシステムにアクセスできなくなった。このような問題をSHIROKANEを運用する技術者や研究者が協力し一つ一つ解決していき、そのノウハウをPCAWGの他のデータセンターにも共有することでこの世界規模の計算機環境は構築することが出来たのである(*2)。このノウハウの共有についてSHIROKANEのチームの貢献は大きかったと考えている。
がんゲノム解析においてこれまで多くの研究では、遺伝子領域だけを調べていたが、今回約2,800名ものがん患者の全ゲノムを調べたことで、遺伝子ではない領域に生じがんの原因となるような変異についても解析し網羅的にカタログ化することが出来た。実は、ヒトゲノム上には約21,000個もの遺伝子があるとされているが、それらは全ゲノム領域のたった2%程度に過ぎない。現在、がんに関連することがこれまでの研究で分かっている数百のがん関連遺伝子を調べる遺伝子パネル検査が保険収載されているが、その検査で原因となる変異や効果が期待できる抗がん剤が見つかる割合はそれほど高くはない。
それは、検査によって調べた遺伝子以外の領域に生じたゲノム変異ががんの原因となっていることが往々にしてあるからだ。今後、がんであることが分かったら、まずはがん細胞の全ゲノムを調べるという時代が来るであろう。そのときに、このPCAWGで構築した「がん全ゲノムの変異カタログ」は、それぞれのがん患者のがんの特徴を理解し、弱点を見つけ有効な治療法を選択するための基盤的な情報になると考えている。今後は、薬剤反応など医療のデータを集積し、全ゲノムの情報に統合し、更にゲノム医療の有効性を向上させることが必要であろう。
*1 The ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Pan-cancer analysis of whole genomes. Nature. 2020 Feb;578(7793):82-93. doi: 10.1038/s41586-020-1969-6.
*2 Yakneen S, et al. Butler enables rapid cloud-based analysis of thousands of human genomes. Nat Biotechnol. 2020 Feb 5. doi: 10.1038/s41587-019-0360-3.
関係するプレスリリース
東京大学 https://www.u-tokyo.ac.jp/focus/ja/press/z0201_00115.html
理化学研究所 https://www.riken.jp/press/2020/20200206_1/index.html