イメージ画像作成 Ella Maru Studio
Hoifung Poon and Naoto Usuyama
本ブログは、2024 年 5 月 22 日に公開された “GigaPath: Whole-Slide Foundation Model for Digital Pathology” の抄訳です。
個別化医療マルチモーダル AI 時代の到来
現在、デジタル トランスフォーメーション (DX) と AI 革命の融合により、個別化医療を劇的に進化させる機会が到来しています。がん治療においては多くの場合、顕微鏡を用いた腫瘍の病理検査が行われます。顕微鏡デジタルスキャナーの登場により、腫瘍組織の標本スライドを超高解像度のデジタル画像として読み取ることができるようになりました。このような超高解像度のスライド全体画像 (Whole Slide Image; WSI) には、がん個別化医療に役立つ情報が多く含まれています。例えば、腫瘍微小環境 (Tumor Microenvironment) を解析する事は免疫療法に非常に重要と考えられています。病理画像を含む多くの患者情報を、マルチモーダル AI を用いて処理することで、治療や医薬品開発に役立つリアルワールドエビデンス (RWE) を大規模に生み出すことができる可能性が期待されています。デジタル病理学のための基盤モデル GigaPath は、その中核を担う技術となります。
デジタル病理 AI に多くの期待が寄せられてきましたが、デジタル病理画像を扱うのは簡単ではありません。腫瘍標本スライドの全体画像は非常に高解像度で、幅と長さの両方で通常の自然画像の数千倍の大きさになることがあります。従来のビジョン トランスフォーマー (Vision Transformer) は、入力の長さが増えるにつれて自己注意機構 (Self-Attention) の計算が劇的に増加するため、このような高解像度の画像を処理するのが困難です。その結果、デジタル病理学における従来の研究では、各スライド内の画像タイル間の複雑な相互依存関係を無視することが多く、腫瘍微小環境のモデリングなどに重要なスライド全体のコンテキストを見逃してしまうことになります。
本ブログ記事では、デジタル病理のための新しいビジョン トランスフォーマー GigaPath をご紹介します。GigaPath のアーキテクチャは、拡張自己注意機構を活用して計算の負荷を抑えることで、病理スライド全体の効率的なモデリングを実現します。GigaPath プロジェクトは、非営利の医療組織である米国の Providence Health System とワシントン大学との共同研究により実現しました。Providence 病院から集められた 170,000 枚以上のスライドに含まれる 10 億枚以上の 256×256 ピクセルの病理画像を用いて大規模事前学習を行い、基盤モデル Prov-GigaPath を開発しました。本プロジェクトは、Providence Institutional Review Board (IRB) および患者の承諾を受けており、すべての計算は Providence の Azure プライベートテナント内で行われました。
私たちが知る限り、Prov-GigaPath は大規模医療データを用いて事前学習を行った世界初のデジタル病理スライドのための基盤モデルです。Prov-GigaPath は、がん分類や遺伝子変異分類タスク、および視覚-言語タスクにおいて最高の性能を達成しました。今回の研究結果は、リアルワールドデータ (RWD) を用いた大規模事前学習および全スライドモデリングの重要性を示し、個別化医療や医薬品開発を実現するための重要な一歩となります。デジタル病理 AI 研究の向上を目指し、Prov-GigaPath はオープンアクセスモデルとして公開されています。
拡張注意機構と LongNet のデジタル病理学への適用
GigaPath は、DINOv2 を使用したタイルレベルの事前学習と、LongNet を使用したスライドレベルの事前学習から成る二段階カリキュラム学習を採用しています (図 1 参照)。DINOv2 は、コントラストロスと再構成ロスを組み合わせてビジョン トランスフォーマーを学習する自己教師あり学習手法です。しかし、自己注意機構による計算負荷のため、その適用は 256×256 ピクセルのタイルなどの小さな画像に限定されます。GigaPath では、スライドレベルのモデリングに、LongNet の拡張注意機構を適用しました (図 2 参照)。
スライドに含まれる膨大な数の画像タイルを処理するために、タイル列を一定のサイズに分割するための様々なサイズのセグメントを導入します。大きなセグメントに対しては、セグメントの長さに比例する疎な注意機構を導入し、二次的な計算量の増加を相殺します。最大のセグメントはスライド全体をカバーしますが、疎にサブサンプルされた自己注意機構で行います。これにより、計算の負荷を抑えつつ (入力コンテキストの長さに対して線形)、長距離依存関係を捉えることが可能になります。
がん分類および遺伝子変異分類タスクにおける GigaPath の性能
Prov-GigaPath モデルを幅広いタスクで評価するため、Providence および TCGA データを用いて、9 つのがんサブタイピングと 17 の遺伝子変異分類タスクを含むデジタル病理学のベンチマークを構築しました。Prov-GigaPath は 26 タスク中 25 タスクで最先端の性能を達成し、18 タスクで 2 番目に優れたモデルに対して有意な改善を示しました。
がん分類タスク
がん分類タスクでは、病理画像に基に、腫瘍を細分化されたサブタイプに分類することを目指します。例えば、卵巣がんタスクの場合、6 つのサブタイプを区別する必要があります。Prov-GigaPath は、すべての 9 つのタスクで最高性能を達成し、6 つのタスクでは 2 番目に優れたモデルに対して有意な改善を示しました (図 3 参照)。乳がん、腎臓がん、肝臓がん、脳腫瘍、卵巣がん、中枢神経系がんの 6 つのがんタイプにおいて、Prov-GigaPath は AUROC 90 % 以上を達成しました。これは、がん診断や予後などの個別化医療のアプリケーションにとって重要な指標です。
遺伝子変異分類タスク
遺伝子変異分類タスクでは、病理画像を基に腫瘍が特定の臨床的に関連する遺伝子変異を示すかどうかを分類することを目指します。これにより、組織の形態と遺伝子経路の間の人間の観察では捉えにくい微細な関連性が明らかになる可能性があります。特定のがんタイプと遺伝子変異のペアがいくつか知られているものの、病理画像のみからどれだけのシグナルが存在するかは明確ではありません。さらに、多様ながんタイプと腫瘍形態における遺伝子変異のシグナルを識別することを目指す汎がんシナリオも考慮しています。このような困難なシナリオにおいても、Prov-GigaPath は 18 タスク中 17 タスクで最先端の性能を達成し、12 タスクで 2 番目に優れたモデルを大きく上回りました (図 4 参照)。例えば、汎がん 5 遺伝子分析では、Prov-GigaPath は AUROC で 6.5 %、AUPRC で 18.7 %の優位性を示しました。また、Prov-GigaPath の汎用性を評価するために、TCGA データに対する直接比較を行ったところ、ここでも全ての競合モデルを上回りました。競合モデルが全て TCGA データで事前学習されていることを考えると、これは特筆すべき性能です。遺伝子変異分類タスクで良い性能を示すということは、GigaPath が事前学習によって獲得した埋め込み表現が遺伝子変異に関連する微細な形態的特徴も含んでいることを示しています。
GigaPath の 視覚言語 (Vision-Language) タスクへの応用
前章では、病理画像を入力した、がんサブタイプ及び遺伝子変異の分類タスクで Prov-GigaPath が高い性能を示すことを示しました。これは、Prov-GigaPath が大規模事前学習によって有効な埋込表現を獲得したことを示しています。このような画像分類ファインチューニング タスクに留まらず、GigaPath を言語モデルと統合することで、患者の病理レポートなどテキストを活用することもできます。このような、画像と言語を組み合わせるモデルは、視覚言語 (Vision-Language) モデルと呼ばれます。従来の視覚言語モデルはタイルレベルの小さな画像を扱うことが主でしたが、我々は GigaPath の高解像度スライドを扱う能力を活かし、スライドレベルの視覚言語事前学習を行いました。Prov-GigaPath を全スライド画像エンコーダー、PubMedBERT をテキスト エンコーダーとして使用し、スライドと病理レポートのペアを用いてコントラスト学習を行います。Prov-GigaPath は、視覚言語タスクにおいて、従来の病理視覚言語モデルを大幅に上回りました (図 5 参照)。
個別化医療マルチモーダル生成 AI の実現に向けて
GigaPathプロジェクトでは、超高解像度の病理スライドのためのモデルアーキテクチャ、及び、大規模医療データ (RWD) を用いた大規模事前学習のベストプラクティスを探索しました。多様で大規模な医療データを用いてモデルの事前学習を行うことで、多くの病理タスクで最先端のパフォーマンスが達成することができました。さらなるモデルとデータのスケールアップにより、性能が一層向上することが期待されます。
Prov-GigaPath は最先端のパフォーマンスを達成しましたが、さらなる成長の余地があります。LLaVA-Med のようなマルチモーダル生成 AI フレームワークと統合することで、マルチモーダル会話アシスタントとして活用されることが期待されます。さらに、個別化医療における重要な腫瘍微小環境のモデリングや治療反応の予測などのタスクでもパフォーマンス向上が期待されます。
GigaPath は、Providence Health System およびワシントン大学の Paul G. Allen School of Computer Science & Engineering との協業に加え、マイクロソフト内の多くのチーム*の協力により実現されています。マイクロソフトは GigaPath に加え、BiomedCLIP、 LLaVA-Rad、 BiomedJourney、 BiomedParse、 MAIRA、 Rad-DINO、 Virchow などの多くの生物医学分野に特化したマルチモーダルモデルを発表しています。大学や病院との共同研究にとどまらず、個別化医療実現のため Cyted Volastra、 Paige など他社とのコラボレーションも活発に行なっています。これは、個別化医療マルチモーダル生成 AI 研究を進展させるための当社のコミットメントを反映しています。
(Acknowledgment footnote) *: Within Microsoft, it is a wonderful collaboration among Health Futures, MSRA, MSR Deep Learning, and Nuance.
Paper co-authors: Hanwen Xu*, Naoto Usuyama*, Jaspreet Bagga, Sheng Zhang, Rajesh Rao, Tristan Naumann, Cliff Wong, Zelalem Gero, Javier Gonz ́alez, Yu Gu, Yanbo Xu, Mu Wei, Wenhui Wang, Shuming Ma, Furu Wei, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Jaylen Rosemon, Tucker Bower, Soohee Lee, Roshanthi Weerasinghe, Bill J. Wright, Ari Robicsek, Brian Piening, Carlo Bifulco, Sheng Wang, Hoifung Poon. (*Co-First Authors)
用語補足:
- RWD (Real-World Data)
- RWE (Real-World Evidence)
- WSI (Whole Slide Image)
- TCGA (The Cancer Genome Atlas)
- AUROC (Area Under the ROC Curve)
- AUPRC (Area Under the Precision-Recall Curve)
関連リンク:
—
本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。