GigaPath: Modelo de base de portaobjetos completos para patología digital

Ilustración de un chip computacional

Por: Hoifung Poon, gerente general, futuros de la salud; Naoto Usuyama, investigador principal.

Imagen: Ella Maru Studio

La confluencia de la transformación digital en la biomedicina y la actual revolución de la IA generativa crea una oportunidad sin precedentes para acelerar de manera drástica el progreso en la salud de precisión. La patología digital es emblemática de esta apasionante frontera. En el tratamiento del cáncer, las imágenes de portaobjetos completos se han vuelto disponibles de manera rutinaria, lo que transforma un portaobjetos de microscopía de tejido tumoral en una imagen digital de alta resolución. Estas imágenes de portaobjetos completos contienen información clave para descifrar el microambiente tumoral, que es fundamental para la inmunoterapia de precisión (por ejemplo, diferenciar los tumores calientes de los fríos en función de la infiltración de linfocitos). La patología digital también se puede combinar con otra información multimodal y longitudinal del paciente en IA generativa multimodal para escalar la generación de evidencia a nivel poblacional y del mundo real.

Este es un momento emocionante, atenuado por la realidad de que la patología digital plantea desafíos computacionales únicos, ya que una diapositiva estándar de gigapíxeles puede ser miles de veces más grande que las imágenes naturales típicas tanto en ancho como en largo. Los transformadores de visión convencionales luchan con un tamaño tan enorme a medida que el cálculo para la autoatención crece de manera drástica con la longitud de entrada. En consecuencia, el trabajo previo en patología digital a menudo ignora las intrincadas interdependencias entre los mosaicos de imágenes en cada portaobjetos, por lo que se pierde un contexto importante a nivel de portaobjetos para aplicaciones clave como el modelado del microambiente tumoral.

En esta entrada del blog, presentamos GigaPath, un novedoso transformador de visión que logra un modelado de diapositivas completas que aprovecha la autoatención dilatada para mantener la computación manejable. En trabajo conjunto con Providence Health System y la Universidad de Washington, hemos desarrollado Prov-GigaPath, un modelo básico de patología de portaobjetos completos de acceso abierto preentrenado en más de mil millones de mosaicos de imágenes de patología de 256 X 256 en más de 170 mil portaobjetos completos a partir de datos del mundo real en Providence. Todo el cómputo se llevó a cabo dentro del inquilino privado de Providence, aprobado por la Junta de Revisión Institucional (IRB, por sus siglas en inglés) de Providence.

Hasta donde sabemos, este es el primer modelo de base de diapositivas completas para patología digital con entrenamiento previo a gran escala con datos del mundo real. Prov-GigaPath alcanza un rendimiento de vanguardia en tareas estándar de clasificación del cáncer y patomía, así como en tareas de lenguaje visual. Esto demuestra la importancia del modelado de portaobjetos completos en datos del mundo real a gran escala y abre nuevas posibilidades para avanzar en la atención al paciente y acelerar el descubrimiento clínico.

Adaptación de la atención dilatada y LongNet a la patología digital

Diagrama de vistazo de GigaPath
Figura 1: Descripción general de GigaPath. a, Diagrama de flujo que muestra la arquitectura del modelo de Prov-GigaPath. Prov-GigaPath primero serializa cada WSI de entrada en una secuencia de 256 × 256 mosaicos de imagen en orden de fila principal y usa un codificador de nivel de mosaico de imagen para convertir cada mosaico de imagen en una incrustación visual. A continuación, Prov-GigaPath aplica un codificador de nivel de diapositiva basado en la arquitectura LongNet para generar incrustaciones contextualizadas, que pueden servir de base para diversas aplicaciones posteriores. b, Entrenamiento previo a nivel de mosaico de imagen mediante DINOv2. c, Preentrenamiento a nivel de diapositiva con LongNet utilizando un codificador automático enmascarado.

GigaPath adopta el aprendizaje curricular en dos etapas que comprende el entrenamiento previo a nivel de mosaico mediante DINOv2 y el entrenamiento previo a nivel de diapositiva mediante el codificador automático enmascarado con LongNet (ver Figura 1). DINOv2 es un método estándar de autosupervisión que combina la pérdida contrastiva y la pérdida de reconstrucción enmascarada en el entrenamiento de transformadores de visión de profesores y estudiantes. Sin embargo, debido al reto computacional para la autoatención, su aplicación se limita a imágenes pequeñas como 256 × 256 mosaicos. Para el modelado a nivel de diapositiva, adaptamos la atención dilatada de LongNet a la patología digital (ver Figura 2). Para manejar la secuencia larga de mosaicos de imágenes para una diapositiva completa, introducimos una serie de tamaños crecientes para subdividir la secuencia de mosaicos en segmentos del tamaño dado. Para segmentos más grandes, introducimos una atención dispersa con una dispersión proporcional a la longitud del segmento, para cancelar el crecimiento cuadrático. El segmento más grande cubriría toda la diapositiva, aunque con una autoatención escasamente submuestreada. Esto nos permite capturar dependencias de largo alcance de forma sistemática mientras mantenemos la manejabilidad en el cálculo (lineal en la longitud del contexto).

Ilustración de la atención dilatada
Figura 2: Ilustración de la atención dilatada. La atención dilatada introduce una serie de tamaños crecientes para subdividir la secuencia de mosaicos en segmentos del tamaño dado. Para segmentos más grandes, introducimos una atención dispersa con una dispersión proporcional a la longitud del segmento, para cancelar el crecimiento cuadrático. Esto nos permite capturar dependencias de largo alcance de forma sistemática mientras mantenemos la manejabilidad en el cálculo (lineal en la longitud del contexto).

GigaPath en tareas de clasificación y patología del cáncer

Construimos un punto de referencia de patología digital que comprende nueve tareas de subtipificación de cáncer y 17 tareas de patología, a través de datos de Providence y TCGA. Con el preentrenamiento a gran escala y el modelado de diapositivas completas, Prov-GigaPath alcanza un rendimiento de vanguardia en 25 de las 26 tareas, con una mejora significativa con respecto al segundo mejor modelo en 18 tareas.

Comparación de la subtipificación del cáncer
Figura 3: Comparación de la subtipificación del cáncer. Gráficos de barras que comparan el rendimiento de la subtipificación del cáncer en términos de AUROC (a,c,e) y la precisión equilibrada (b,d,f) en nueve tipos de cáncer. Los datos son media ± s.e.m. a través de n = 10 experimentos independientes. El valor P indicado indica la importancia de que Prov-GigaPath supere el mejor enfoque de comparación, con la prueba de Wilcoxon unilateral. BACC, precisión equilibrada. BRCA: carcinoma invasivo de mama; SNC: sistema nervioso central; COADREAD: adenocarcinoma colorrectal; DIFG: glioma pontino intrínseco difuso; EGC: cáncer gástrico precoz; HB: hepatobiliar; CPCNP: cáncer de pulmón de células no pequeñas; OVT: tumor de ovario; CCR: cáncer de células renales.

En cuanto a la subtipificación del cáncer, el objetivo es clasificar los subtipos de grano fino en función de la diapositiva de patología. Por ejemplo, para el cáncer de ovario, el modelo debe diferenciar entre seis subtipos: cáncer de ovario de células claras, cáncer de ovario endometrioide, cáncer de ovario seroso de alto grado, cáncer de ovario seroso de bajo grado, cáncer de ovario mucinoso y carcinosarcoma de ovario. Prov-GigaPath alcanzó un rendimiento de vanguardia en las nueve tareas, con una mejora significativa con respecto al segundo mejor en seis de las nueve tareas (consulte la Figura 3). Para seis tipos de cáncer (mama, riñón, hígado, cerebro, ovario, sistema nervioso central), Prov-GigaPath alcanza un AUROC del 90% o más. Esto es un buen augurio para las aplicaciones posteriores en la salud de precisión, como el diagnóstico y el pronóstico del cáncer.

Comparación de la predicción de mutaciones genéticas
Figura 4: Comparación de la predicción de mutaciones genéticas. a−j, Gráficos de barras que comparan las puntuaciones AUROC y AUPRC de Prov-GigaPath y los métodos de la competencia en el biomarcador pancanceroso 18 (a,f), la predicción de mutaciones de 5 genes específicos de LUAD (b,g), la predicción de mutaciones de 5 genes pancancerígenos (c,h), la predicción de mutaciones de 5 genes específicas de LUAD en TCGA (d,i) y la predicción de TMB pancancerígenas (e,j). k, Gráfico de barras que muestra AUROC para cada gen en la predicción de mutación de cinco genes específica de LUAD en TCGA. a−k, los datos son la media ± s.e.m. a través de n = 10 experimentos independientes. El valor P indicado indica la importancia de que Prov-GigaPath supere el mejor enfoque de comparación, con la prueba de Wilcoxon unilateral. l, Comparación de las puntuaciones de AUROC para biomarcadores individuales en predicciones de 18 biomarcadores pancancerígenos.

En las tareas de anatomía patológica, el objetivo es clasificar si el tumor exhibe mutaciones genéticas específicas relevantes a nivel clínico, basándose tan solo en la imagen del portaobjetos. Esto puede descubrir conexiones significativas entre la morfología de los tejidos y las vías genéticas que son demasiado sutiles para ser captadas por la observación humana. Aparte de unos pocos pares bien conocidos de tipos específicos de cáncer y mutaciones genéticas, no está claro cuánta señal existe solo de la diapositiva. Además, en algunos experimentos, consideramos el escenario pancanceroso, en el que tratamos de identificar señales universales para una mutación genética en todos los tipos de cáncer y morfologías tumorales muy diversas. En escenarios tan desafiantes, Prov-GigaPath una vez más alcanzó un rendimiento de vanguardia en 17 de las 18 tareas, para superar de manera significativa al segundo mejor en 12 de las 18 tareas (ver Figura 4). Por ejemplo, en el análisis pancancerígeno de 5 genes, Prov-GigaPath superó a los mejores métodos de la competencia en un 6,5% en AUROC y un 18,7% en AUPRC. También realizamos una comparación directa de los datos de TCGA para evaluar la generalización de Prov-GigaPath y descubrimos que Prov-GigaPath superó de manera similar a todos los métodos de la competencia allí. Esto es aún más notable dado que todos los métodos de la competencia fueron entrenados de manera previa en TCGA. El hecho de que Prov-Gigapath pueda extraer características morfológicas específicas de subtipos y pancáncer vinculadas de manera genética a nivel de portaobjetos completos destaca la relevancia biológica de las incrustaciones aprendidas subyacentes y abre la puerta al uso de datos del mundo real para futuras direcciones de investigación en torno a la compleja biología del microambiente tumoral.

GigaPath en tareas de lenguaje de visión

Comparación de tareas de visión-lenguaje
Figura 5: Comparación de tareas de visión-lenguaje. a, Diagrama de flujo que muestra el ajuste fino de Prov-GigaPath a través de informes de patología. Los informes de patología del mundo real se procesan con GPT-3.5 de OpenAI para eliminar información irrelevante para el diagnóstico de cáncer. Realizamos el aprendizaje contrastivo basado en CLIP para alinear Prov-GigaPath y PubMedBERT. b, el Prov-GigaPath afinado se puede utilizar para realizar la subtipificación del cáncer y la predicción de mutaciones sin disparos. La entrada de Prov-GigaPath es una secuencia de mosaicos segmentados a partir de un WSI, y las entradas del codificador de texto PubMedBERT son mensajes diseñados de manera manual que representan tipos de cáncer y mutaciones. Basándonos en los resultados de Prov-GigaPath y PubMedBERT, podemos calcular la probabilidad de que el WSI de entrada se clasifique en subtipos y mutaciones específicas de cáncer. c, Gráficos de barras que comparan el rendimiento de la subtipificación de disparo cero en NSCLC y COADREAD en términos de BACC, precisión y f 1. d, Gráficos de barras que comparan el rendimiento en la predicción de mutaciones a través del modelo ajustado para seis genes. c,d, Los datos son la media ± s.e.m. en n = 50 experimentos. El valor P indicado indica la importancia de que Prov-GigaPath supere el mejor enfoque de comparación, con la prueba de Wilcoxon unilateral. e, Diagramas de dispersión que comparan el rendimiento entre Prov-GigaPath y MI-Zero en términos de BACC en la subtipificación de cáncer de disparo cero. Cada punto indica una prueba con un conjunto determinado de formulaciones de consulta de texto.

Además, demostramos el potencial de GigaPath en tareas de lenguaje de visión mediante la incorporación de los informes de patología. El trabajo previo sobre patología visual-lenguaje preentrenado tiende a centrarse en imágenes pequeñas a nivel de mosaico. En su lugar, exploramos el preentrenamiento de la visión y el lenguaje a nivel de diapositiva. Al continuar con el entrenamiento previo en pares de diapositivas e informes, podemos aprovechar la semántica del informe para alinear la representación de diapositivas de patología, que se puede utilizar para tareas de predicción posteriores sin un ajuste fino supervisado (por ejemplo, subtipado de disparo cero). En específico, usamos Prov-GigaPath como codificador de imagen de diapositiva completa y PubMedBERT como codificador de texto, y llevamos a cabo el aprendizaje contrastivo a través de los pares de diapositivas e informe. Esto es mucho más desafiante que el entrenamiento previo tradicional del lenguaje de visión, ya que no tenemos información de alineación detallada entre mosaicos de imágenes individuales y fragmentos de texto. Prov-GigaPath supera de manera sustancial a tres modelos de lenguaje de visión patológica de última generación en tareas estándar de lenguaje de visión, como la subtipificación de cáncer de disparo cero y la predicción de mutaciones genéticas, lo que demuestra el potencial de Prov-GigaPath en el modelado de lenguaje de visión de portaobjetos completos (consulte la Figura 5).

GigaPath es un paso prometedor hacia la IA generativa multimodal para la salud de precisión

Hemos llevado a cabo estudios exhaustivos de ablación para establecer las mejores prácticas en el preentrenamiento de portaobjetos completos y el modelado del lenguaje visual. También observamos indicios tempranos de la ley de escalamiento en patología digital, donde el preentrenamiento a mayor escala por lo general mejoró el rendimiento posterior, aunque nuestros experimentos aún eran limitados debido a restricciones computacionales.

De cara al futuro, hay muchas oportunidades de progreso. Prov-GigaPath alcanzó un rendimiento de vanguardia en comparación con los mejores modelos anteriores, pero todavía hay un espacio de crecimiento significativo en muchas tareas posteriores. Si bien hemos llevado a cabo una exploración inicial sobre el preentrenamiento de la visión y el lenguaje de la patología, todavía queda un largo camino por recorrer para perseguir el potencial de un asistente conversacional multimodal, en específico mediante la incorporación de marcos multimodales avanzados como LLaVA-Med. Y lo que es más importante, aún tenemos que explorar el impacto de GigaPath y el preentrenamiento de portaobjetos completos en muchas tareas clave de salud de precisión, como el modelado del microambiente tumoral y la predicción de la respuesta al tratamiento.

GigaPath es un trabajo conjunto con Providence Health System y la Escuela Paul G. Allen de Ciencias de la Computación e Ingeniería de la Universidad de Washington, y brinda la colaboración de múltiples equipos dentro de Microsoft*. Refleja el compromiso más amplio de Microsoft en el avance de la IA generativa multimodal para la salud de precisión, con un progreso emocionante en otras colaboraciones de investigación de patología digital, como Citado, Volastra y Paige así como otros avances técnicos como BiomedCLIP, LLaVA-Rad, BiomedJourney, BiomedParse, MAIRA, Rad-DINO, Virchow.

(Nota de agradecimiento) *: Dentro de Microsoft, es una maravillosa colaboración entre Health Futures, MSRA, MSR Deep Learning y Nuance.

Coautores del artículo: Hanwen Xu, Naoto Usuyama, Jaspreet Bagga, Sheng Zhang, Rajesh Rao, Tristan Naumann, Cliff Wong, Zelalem Gero, Javier González, Yu Gu, Yanbo Xu, Mu Wei, Wenhui Wang, Shuming Ma, Furu Wei, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Jaylen Rosemon, Tucker Bower, Soohee Lee, Roshanthi Weerasinghe, Bill J. Wright, Ari Robicsek, Brian Piening, Carlo Bifulco, Sheng Wang, Hoifung Poon.