[2018年3月2日]
Posted by : ジョン ローチ (John Roach)
小児がんの治療につながるブレークスルーの実現には、世界中の研究者がゲノムデータを容易に共有し、共同作業を行える環境が必要です。2010年に計算生物学者のチングイ チャン (Jinghui Zhang) 教授とメンフィス市にある聖ジュード小児研究病院 (St. Jude Children’s Research Hospital) の彼女の研究チームが患者の健康な細胞とがん性細胞を匿名化し、パブリックなデータリポジトリにアップロードする取り組みを始めたのも、この考えがきっかけでした。
「データサイズが膨大なため、ダウンロードして利用することは非常に困難であることに気づきました。そこで、聖ジュード病院はグローバルな研究コミュニティとのデータ共有を促進するため、別の方法を真剣に模索し始めました」とチャン教授は述べています。
これが、マイクロソフトのゲノム研究グループのメンバーとのコラボレーションにつながりました。当時、マイクロソフトはゲノムデータの数 10 億個のパズルピースを参照ゲノムと重ね合わせ、相違点を識別するクラウドベースの計算パイプラインの取り組みを開始していました。これは、配列アラインメントと変異解析(バリアントコーリング)と呼ばれる分析手法です。
水曜日に、マイクロソフトは、この分野におけるマイクロソフトの初期の取り組みの成果である Microsoft Genomics サービスの一般提供開始を発表しました。
バリアントは個人をユニークにする要素です。身体的特徴から病気への感受性に至るさまざまな特性のマーカーになります。バリアントが何を意味するかを発見するゲノムワイド分析と呼ばれる研究の対象としてもバリアントは重要です。研究者がより多くのゲノムデータをアクセスし、分析できるほど、より正確に生物学の複雑性を解き明かし、がんなどの治療に向けて進歩することができます
チャン教授のチームはマイクロソフトの研究者と協力し、DNAnexus が提供する、Microsoft Azure上で稼働するゲノムデータ管理プラットフォームを活用して、配列アラインメントと変異解析のパイプラインを開発しています。現在までのところ、合同研究チームは 0.5 ペタバイトのゲノムデータを処理し、分析のために Azure に保管しています。参考までに言えば 0.5 ペタバイトは 75 万枚の CD-ROM に相当します。
計算パイプラインにより分析されクラウドに格納されている聖ジュード病院のゲノムデータは、同院が DNAnexus、及びマイクロソフトと協力して構築しているデータ共有プラットフォームの基盤となります。目標は、世界中の研究者が、世界で 14 歳以下の子供たちが毎年およそ 175,000 人罹患している小児がんの治療法の発見を共同で行なうことです。
マイクロソフトの研究組織のゲノムグループを統率するジェラリン ミラー (Geralyn Miller) は「私たちにとってこのような現実世界のデータを使ってテストできること、そしてこれらのチームと密接な関係を持って働けることは素晴らしい機会です」と述べています。
良質のデータを使いやすく
Microsoft Genomics サービスは、人工知能 (AI) とクラウドコンピューティングによるヘルスケア分野のイノベーションを目指すマイクロソフトの取り組み、 Healthcare NExT の一環です。
ゲノム工学で最初に必要になるのはノイズがない正確なデータです。
マイクロソフトのゲノムグループの主任ソフトウェアアーキテクトであるボブ デビッドソン (Bob Davidson) は次のように述べています。「良質なデータが必要なのは明らかです。そして、人々がきわめて容易に良質なデータを取得できるようにすれば、生物学の情報をクラウド上の分析ツールに提供して、あらゆる人の生産性を向上し、発見率を向上することが期待できます。」
Microsoft Genomics サービスは、がんなどの疾病を理解して治療する高精度医療のブレークスルーを実現するための重要な構成要素です。たとえば、患者の健康な組織とがん化した組織のゲノムデータを分析することで、診療医は他の患者への治療と結果のデータに基づいて最も効果的な治療法を選択できます。
ゲノムデータを処理する共通パイプラインによりデータ品質を低下させる作為的データやノイズを削減できます。これにより、AIによる高精度医療の支援をさらに強化できるとミラーは説明します。
「マイクロソフトはこのステップをコモディティ化しています。人々が容易に実行し、出力されるデータの一貫性を維持できるようにしています。」
「クラウドに最適なワークロード」
ひとつのヒトゲノムのシーケンス解析に要するコストが 2001 年時点の 1 億ドルから現時点の 1,000 ドルにまで低下し、一般的な診療試験と同レベルになったことで、ゲノムのシーケンス解析における二次処理とも呼ばれる配列アラインメントと変異解析がコモディティ化される機会が生まれました。業界専門家はゲノム解析が 1,000 ドル以下になることにより、需要が激増し、2025 年までには 1 億個以上のヒトゲノムの解析が行なわれることになると予測しています。
これは新たな問題を生じさせますが、マイクロソフトと DNAnexus はそれを解決する準備ができています。
ひとつのヒトゲノムは 100 ギガバイトのストレージスペースを消費します。シーケンス対象のゲノム数が増すにつれストレージの所要量はギガバイト、ペタバイト、エクサバイトへと拡大して行きます。2025年までには、ヒトゲノムデータの保管に 40 エクサバイトのストレージ容量が必要になると予測されています。エクサバイトは約 1,000 ペタバイトであり、CD-ROMの15億枚分に相当します。
「ゲノムデータは真のビッグデータです。そして、膨大な計算能力を必要とします」とミラーは述べます。ひとつのヒトゲノムの分析だけでも数 100 時間のコア時間を必要とします。昨今のラップトップコンピューターのCPUは通常、4つのコアを備えています。これに対して、データセンターは数 10万 コアを提供しており「ゲノム分析はクラウドでの処理に最適です。」
さらに、ゲノムデータの扱いにはプライバシーとセキュリティという複雑な課題がつきまといます。マイクロソフトは Azure データセンターを世界中で運営しており、Microsoft Genomics は現在、米国、西欧、東南アジアで提供されています。Microsoft Genomics サービスは ISO 認証を受けており、セキュリティ、プライバシー、品質における国際標準に準拠しています。加えて、マイクロソフトは HIPAA Business Associate Agreement に対応しており、個人の健康に関する情報は責任を持って扱われます。また、Microsoft Trust Center で定められたセキュリティとプライバシーの基準にも従っています。
パートナーのエコシステム
Azureを活用する DNAnexus は、聖ジュード小児研究病院とデータ共有プラットフォーム関連で協力しているゲノムデータ管理企業です。DNAnexusはMicrosoft Genomicsサービスと他のゲノム分析・可視化ツールを統合し、研究者が安全なエコシステム内のツールや多様なデータセットにアクセスするためのインターフェースを提供します。
DNAnexus の CEO リチャード ダリー (Richard Daly) 氏は次のように述べています。「当社の科学者がお客様の科学者と連携し、科学的な課題を理解してワークフローをプラットフォームに移植できるようにすることが当社にとっての成功です。お客様の試行の後に本番展開を開始します。今回のケースでは、当社のチームがSt. Jude 病院そしてマイクロソフトと緊密に連携し、特定の要件を判別し、独自のソリューションを構築できました。」
ミラー、デビッドソン、そして、マイクロソフトのゲノム研究グループのメンバーは、Microsoft Genomics サービスが、DNAnexus などの Azure パートナーとの統合できる最初のツールのひとつあると考えています。St. Jude 病院は、多様なツールを使用して多様な組織が生成した多様なタイプのデータを共有し、コラボレーションする方法を模索していますが、それについても活発な議論が継続しているとミラーは述べます。
「Microsoft Genomicsの特色は研究部門との結び付きの強さです。私たちは、現場に出て、実験を行ない、アイデアを研究室から実行に移すための専門知識を持っています」とミラーは述べています。
ページ冒頭写真:From left, Microsoft’s Ravi Pandya, Geralyn Miller and Bob Davidson discuss Microsoft Genomics service. (Photo by Dan DeLong for Microsoft.)
—
本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。