Por: Hoifung Poon, gerente general, futuros de la salud; Naoto Usuyama, investigador principal.
Imagen: Ella Maru Studio
La confluencia de la transformación digital en la biomedicina y la actual revolución de la IA generativa crea una oportunidad sin precedentes para acelerar de manera drástica el progreso en la salud de precisión. La patología digital es emblemática de esta apasionante frontera. En el tratamiento del cáncer, las imágenes de portaobjetos completos se han vuelto disponibles de manera rutinaria, lo que transforma un portaobjetos de microscopía de tejido tumoral en una imagen digital de alta resolución. Estas imágenes de portaobjetos completos contienen información clave para descifrar el microambiente tumoral, que es fundamental para la inmunoterapia de precisión (por ejemplo, diferenciar los tumores calientes de los fríos en función de la infiltración de linfocitos). La patología digital también se puede combinar con otra información multimodal y longitudinal del paciente en IA generativa multimodal para escalar la generación de evidencia a nivel poblacional y del mundo real.
Este es un momento emocionante, atenuado por la realidad de que la patología digital plantea desafíos computacionales únicos, ya que una diapositiva estándar de gigapíxeles puede ser miles de veces más grande que las imágenes naturales típicas tanto en ancho como en largo. Los transformadores de visión convencionales luchan con un tamaño tan enorme a medida que el cálculo para la autoatención crece de manera drástica con la longitud de entrada. En consecuencia, el trabajo previo en patología digital a menudo ignora las intrincadas interdependencias entre los mosaicos de imágenes en cada portaobjetos, por lo que se pierde un contexto importante a nivel de portaobjetos para aplicaciones clave como el modelado del microambiente tumoral.
En esta entrada del blog, presentamos GigaPath, un novedoso transformador de visión que logra un modelado de diapositivas completas que aprovecha la autoatención dilatada para mantener la computación manejable. En trabajo conjunto con Providence Health System y la Universidad de Washington, hemos desarrollado Prov-GigaPath, un modelo básico de patología de portaobjetos completos de acceso abierto preentrenado en más de mil millones de mosaicos de imágenes de patología de 256 X 256 en más de 170 mil portaobjetos completos a partir de datos del mundo real en Providence. Todo el cómputo se llevó a cabo dentro del inquilino privado de Providence, aprobado por la Junta de Revisión Institucional (IRB, por sus siglas en inglés) de Providence.
Hasta donde sabemos, este es el primer modelo de base de diapositivas completas para patología digital con entrenamiento previo a gran escala con datos del mundo real. Prov-GigaPath alcanza un rendimiento de vanguardia en tareas estándar de clasificación del cáncer y patomía, así como en tareas de lenguaje visual. Esto demuestra la importancia del modelado de portaobjetos completos en datos del mundo real a gran escala y abre nuevas posibilidades para avanzar en la atención al paciente y acelerar el descubrimiento clínico.
Adaptación de la atención dilatada y LongNet a la patología digital
GigaPath adopta el aprendizaje curricular en dos etapas que comprende el entrenamiento previo a nivel de mosaico mediante DINOv2 y el entrenamiento previo a nivel de diapositiva mediante el codificador automático enmascarado con LongNet (ver Figura 1). DINOv2 es un método estándar de autosupervisión que combina la pérdida contrastiva y la pérdida de reconstrucción enmascarada en el entrenamiento de transformadores de visión de profesores y estudiantes. Sin embargo, debido al reto computacional para la autoatención, su aplicación se limita a imágenes pequeñas como 256 × 256 mosaicos. Para el modelado a nivel de diapositiva, adaptamos la atención dilatada de LongNet a la patología digital (ver Figura 2). Para manejar la secuencia larga de mosaicos de imágenes para una diapositiva completa, introducimos una serie de tamaños crecientes para subdividir la secuencia de mosaicos en segmentos del tamaño dado. Para segmentos más grandes, introducimos una atención dispersa con una dispersión proporcional a la longitud del segmento, para cancelar el crecimiento cuadrático. El segmento más grande cubriría toda la diapositiva, aunque con una autoatención escasamente submuestreada. Esto nos permite capturar dependencias de largo alcance de forma sistemática mientras mantenemos la manejabilidad en el cálculo (lineal en la longitud del contexto).
GigaPath en tareas de clasificación y patología del cáncer
Construimos un punto de referencia de patología digital que comprende nueve tareas de subtipificación de cáncer y 17 tareas de patología, a través de datos de Providence y TCGA. Con el preentrenamiento a gran escala y el modelado de diapositivas completas, Prov-GigaPath alcanza un rendimiento de vanguardia en 25 de las 26 tareas, con una mejora significativa con respecto al segundo mejor modelo en 18 tareas.
En cuanto a la subtipificación del cáncer, el objetivo es clasificar los subtipos de grano fino en función de la diapositiva de patología. Por ejemplo, para el cáncer de ovario, el modelo debe diferenciar entre seis subtipos: cáncer de ovario de células claras, cáncer de ovario endometrioide, cáncer de ovario seroso de alto grado, cáncer de ovario seroso de bajo grado, cáncer de ovario mucinoso y carcinosarcoma de ovario. Prov-GigaPath alcanzó un rendimiento de vanguardia en las nueve tareas, con una mejora significativa con respecto al segundo mejor en seis de las nueve tareas (consulte la Figura 3). Para seis tipos de cáncer (mama, riñón, hígado, cerebro, ovario, sistema nervioso central), Prov-GigaPath alcanza un AUROC del 90% o más. Esto es un buen augurio para las aplicaciones posteriores en la salud de precisión, como el diagnóstico y el pronóstico del cáncer.
En las tareas de anatomía patológica, el objetivo es clasificar si el tumor exhibe mutaciones genéticas específicas relevantes a nivel clínico, basándose tan solo en la imagen del portaobjetos. Esto puede descubrir conexiones significativas entre la morfología de los tejidos y las vías genéticas que son demasiado sutiles para ser captadas por la observación humana. Aparte de unos pocos pares bien conocidos de tipos específicos de cáncer y mutaciones genéticas, no está claro cuánta señal existe solo de la diapositiva. Además, en algunos experimentos, consideramos el escenario pancanceroso, en el que tratamos de identificar señales universales para una mutación genética en todos los tipos de cáncer y morfologías tumorales muy diversas. En escenarios tan desafiantes, Prov-GigaPath una vez más alcanzó un rendimiento de vanguardia en 17 de las 18 tareas, para superar de manera significativa al segundo mejor en 12 de las 18 tareas (ver Figura 4). Por ejemplo, en el análisis pancancerígeno de 5 genes, Prov-GigaPath superó a los mejores métodos de la competencia en un 6,5% en AUROC y un 18,7% en AUPRC. También realizamos una comparación directa de los datos de TCGA para evaluar la generalización de Prov-GigaPath y descubrimos que Prov-GigaPath superó de manera similar a todos los métodos de la competencia allí. Esto es aún más notable dado que todos los métodos de la competencia fueron entrenados de manera previa en TCGA. El hecho de que Prov-Gigapath pueda extraer características morfológicas específicas de subtipos y pancáncer vinculadas de manera genética a nivel de portaobjetos completos destaca la relevancia biológica de las incrustaciones aprendidas subyacentes y abre la puerta al uso de datos del mundo real para futuras direcciones de investigación en torno a la compleja biología del microambiente tumoral.
GigaPath en tareas de lenguaje de visión
Además, demostramos el potencial de GigaPath en tareas de lenguaje de visión mediante la incorporación de los informes de patología. El trabajo previo sobre patología visual-lenguaje preentrenado tiende a centrarse en imágenes pequeñas a nivel de mosaico. En su lugar, exploramos el preentrenamiento de la visión y el lenguaje a nivel de diapositiva. Al continuar con el entrenamiento previo en pares de diapositivas e informes, podemos aprovechar la semántica del informe para alinear la representación de diapositivas de patología, que se puede utilizar para tareas de predicción posteriores sin un ajuste fino supervisado (por ejemplo, subtipado de disparo cero). En específico, usamos Prov-GigaPath como codificador de imagen de diapositiva completa y PubMedBERT como codificador de texto, y llevamos a cabo el aprendizaje contrastivo a través de los pares de diapositivas e informe. Esto es mucho más desafiante que el entrenamiento previo tradicional del lenguaje de visión, ya que no tenemos información de alineación detallada entre mosaicos de imágenes individuales y fragmentos de texto. Prov-GigaPath supera de manera sustancial a tres modelos de lenguaje de visión patológica de última generación en tareas estándar de lenguaje de visión, como la subtipificación de cáncer de disparo cero y la predicción de mutaciones genéticas, lo que demuestra el potencial de Prov-GigaPath en el modelado de lenguaje de visión de portaobjetos completos (consulte la Figura 5).
GigaPath es un paso prometedor hacia la IA generativa multimodal para la salud de precisión
Hemos llevado a cabo estudios exhaustivos de ablación para establecer las mejores prácticas en el preentrenamiento de portaobjetos completos y el modelado del lenguaje visual. También observamos indicios tempranos de la ley de escalamiento en patología digital, donde el preentrenamiento a mayor escala por lo general mejoró el rendimiento posterior, aunque nuestros experimentos aún eran limitados debido a restricciones computacionales.
De cara al futuro, hay muchas oportunidades de progreso. Prov-GigaPath alcanzó un rendimiento de vanguardia en comparación con los mejores modelos anteriores, pero todavía hay un espacio de crecimiento significativo en muchas tareas posteriores. Si bien hemos llevado a cabo una exploración inicial sobre el preentrenamiento de la visión y el lenguaje de la patología, todavía queda un largo camino por recorrer para perseguir el potencial de un asistente conversacional multimodal, en específico mediante la incorporación de marcos multimodales avanzados como LLaVA-Med. Y lo que es más importante, aún tenemos que explorar el impacto de GigaPath y el preentrenamiento de portaobjetos completos en muchas tareas clave de salud de precisión, como el modelado del microambiente tumoral y la predicción de la respuesta al tratamiento.
GigaPath es un trabajo conjunto con Providence Health System y la Escuela Paul G. Allen de Ciencias de la Computación e Ingeniería de la Universidad de Washington, y brinda la colaboración de múltiples equipos dentro de Microsoft*. Refleja el compromiso más amplio de Microsoft en el avance de la IA generativa multimodal para la salud de precisión, con un progreso emocionante en otras colaboraciones de investigación de patología digital, como Citado, Volastra y Paige así como otros avances técnicos como BiomedCLIP, LLaVA-Rad, BiomedJourney, BiomedParse, MAIRA, Rad-DINO, Virchow.
(Nota de agradecimiento) *: Dentro de Microsoft, es una maravillosa colaboración entre Health Futures, MSRA, MSR Deep Learning y Nuance.
Coautores del artículo: Hanwen Xu, Naoto Usuyama, Jaspreet Bagga, Sheng Zhang, Rajesh Rao, Tristan Naumann, Cliff Wong, Zelalem Gero, Javier González, Yu Gu, Yanbo Xu, Mu Wei, Wenhui Wang, Shuming Ma, Furu Wei, Jianwei Yang, Chunyuan Li, Jianfeng Gao, Jaylen Rosemon, Tucker Bower, Soohee Lee, Roshanthi Weerasinghe, Bill J. Wright, Ari Robicsek, Brian Piening, Carlo Bifulco, Sheng Wang, Hoifung Poon.