
El camino hacia la superinteligencia médica
Por: Dominic King y Harsha Nori.
El equipo de IA de Microsoft comparte investigaciones que demuestran cómo la IA puede investigar y resolver de manera secuencial, los desafíos de diagnóstico más complejos de la medicina, casos que los médicos expertos luchan por responder.
Comparados con los registros de casos del mundo real publicados cada semana en el New England Journal of Medicine, mostramos que el Microsoft AI Diagnostic Orchestrator (MAI-DxO) diagnostica de manera correcta hasta el 85% de los procedimientos de casos de NEJM, una tasa más de cuatro veces superior a la de un grupo de médicos experimentados. MAI-DxO también llega al diagnóstico correcto de manera más rentable que los médicos.
—
A medida que la demanda de atención médica continúa su crecimiento, los costos aumentan a un ritmo insostenible y miles de millones de personas enfrentan múltiples barreras para una mejor salud, incluidos diagnósticos inexactos y tardíos. Cada vez más, las personas recurren a las herramientas digitales para obtener asesoramiento y apoyo médico. En los productos de consumo de IA de Microsoft, como Bing y Copilot, vemos más de 50 millones de sesiones relacionadas con la salud todos los días. Desde una consulta por primera vez sobre el dolor de rodilla hasta una búsqueda nocturna de una clínica de atención urgente, los motores de búsqueda y los compañeros de IA se convierten con rapidez en la nueva primera línea de la atención médica.
Queremos hacer más para ayudar, y creemos que la IA generativa puede ser transformadora. Por eso, a finales de 2024, lanzamos un esfuerzo dedicado a la salud del consumidor en Microsoft AI, dirigido por médicos, diseñadores, ingenieros y científicos de IA. Este esfuerzo complementa las iniciativas de salud más amplias de Microsoft y se basa en nuestro compromiso de larga data con la asociación y la innovación. Las soluciones existentes incluyen RAD-DINO, que ayuda a acelerar y mejorar los flujos de trabajo de radiología, y Microsoft Dragon Copilot, nuestro asistente pionero de IA de voz para médicos.
Para que la IA marque la diferencia, tanto los médicos como los pacientes deben poder confiar en su rendimiento. Ahí es donde entran en juego nuestros nuevos puntos de referencia y el orquestador de IA.
Desafíos y puntos de referencia de casos médicos
Para ejercer la medicina en los Estados Unidos, los médicos deben aprobar el Examen de Licencia Médica de los Estados Unidos (USMLE, por sus siglas en inglés), una evaluación rigurosa y estandarizada del conocimiento clínico y la toma de decisiones. Las preguntas USMLE se encuentran entre los primeros puntos de referencia utilizados para evaluar los sistemas de IA en medicina, ya que ofrecen una forma estructurada de comparar el rendimiento de los modelos, tanto entre sí como con los clínicos humanos.
En solo tres años, la IA generativa ha avanzado hasta el punto de obtener puntuaciones casi perfectas en el USMLE y exámenes similares. Pero estas pruebas se basan en su mayoría en preguntas de opción múltiple, que favorecen la memorización sobre la comprensión profunda. Al reducir la medicina a respuestas únicas a preguntas de opción múltiple, estos puntos de referencia exageran la aparente competencia de los sistemas de IA y oscurecen sus limitaciones.
En Microsoft AI, trabajamos para avanzar y evaluar las capacidades de razonamiento clínico. Para ir más allá de las limitaciones de las preguntas de opción múltiple, nos hemos centrado en el diagnóstico secuencial, una piedra angular de la toma de decisiones médicas en el mundo real. En este proceso, un médico comienza con una presentación inicial para el paciente y luego selecciona de manera iterativa preguntas y pruebas diagnósticas para llegar a un diagnóstico final. Por ejemplo, un paciente que presenta tos y fiebre puede llevar al médico a ordenar y revisar análisis de sangre y una radiografía de tórax antes de sentirse seguro de diagnosticar neumonía.
Cada semana, el New England Journal of Medicine (NEJM), una de las revistas médicas más importantes del mundo, publica un registro de caso del Hospital General de Massachusetts, que presenta el proceso de atención de un paciente en un formato narrativo detallado. Estos casos se encuentran entre los más complejos diagnósticos y de una gran exigencia a nivel intelectual, de la medicina clínica, ya que a menudo requieren múltiples especialistas y pruebas diagnósticas para llegar a un diagnóstico definitivo.
¿Cómo se comporta la IA? Para responder a esto, creamos desafíos de casos interactivos extraídos de la serie de casos de NEJM, lo que llamamos el Punto de Referencia de Diagnóstico Secuencial (SD Bench). Este punto de referencia transforma 304 casos recientes de NEJM en encuentros de diagnóstico escalonados en los que los modelos, o los médicos humanos, pueden hacer preguntas y solicitar pruebas de forma iterativa. A medida que se dispone de nueva información, el modelo o el clínico actualizan su razonamiento, acercándose de manera gradual a un diagnóstico final. Este diagnóstico puede compararse con el resultado de referencia publicado en el NEJM.
Cada investigación solicitada también incurre en un costo (virtual), que refleja los gastos de atención médica del mundo real. Esto nos permite evaluar el rendimiento en dos dimensiones clave: la precisión del diagnóstico y el gasto de recursos. Pueden ver cómo un sistema de IA avanza a través de uno de estos desafíos en este breve video.
Cómo llegar a un diagnóstico correcto
Evaluamos un conjunto completo de modelos de IA generativa de frontera frente a los 304 casos de NEJM. Los modelos de base probados incluyeron GPT, Llama, Claude, Gemini, Grok y DeepSeek.
Más allá de la evaluación comparativa de referencia, también desarrollamos Microsoft AI Diagnostic Orchestrator (MAI-DxO), un sistema diseñado para emular un panel virtual de médicos con diversos enfoques de diagnóstico que colaboran para resolver casos de diagnóstico. Creemos que la orquestación de múltiples modelos de lenguaje será fundamental para gestionar flujos de trabajo clínicos complejos. Los orquestadores pueden integrar diversas fuentes de datos de forma más eficaz que los modelos individuales, al tiempo que mejoran la seguridad, la transparencia y la adaptabilidad en respuesta a las necesidades médicas cambiantes. Este enfoque independiente del modelo promueve la auditabilidad y la resiliencia, atributos clave en entornos clínicos de alto riesgo y rápida evolución.

MAI-DxO aumentó el rendimiento de diagnóstico de todos los modelos que probamos. La configuración con mejor rendimiento fue MAI-DxO combinada con o3 de OpenAI, que resolvió de manera correcta el 85,5% de los casos de referencia de NEJM. A modo de comparación, también evaluamos a 21 médicos en ejercicio de los EE. UU. y el Reino Unido, cada uno con 5-20 años de experiencia clínica. En las mismas tareas, estos expertos lograron una precisión media del 20% en los casos completados.
MAI-DxO es configurable, lo que le permite operar dentro de las restricciones de costo definidas. Esto permite una exploración explícita de las compensaciones costo-valor inherentes a la toma de decisiones diagnósticas. Sin estas limitaciones, un sistema de IA podría ordenar por defecto todas las pruebas posibles, sin importar el costo, la incomodidad del paciente o los retrasos en la atención. Es importante destacar que descubrimos que MAI-DxO brindó una mayor precisión diagnóstica y menores costos generales de pruebas que los médicos o cualquier modelo de fundación individual probado.

¿Qué sigue?
Los médicos suelen caracterizarse por la amplitud o profundidad de su experiencia. Los generalistas, al igual que los médicos de familia, manejan una amplia gama de afecciones a través de las edades y los sistemas de órganos. Los especialistas, como los reumatólogos, se centran a profundidad en un solo sistema, área de enfermedad o incluso afección. Sin embargo, ningún médico por sí solo puede abarcar toda la complejidad de la serie de casos de NEJM. La IA, por otro lado, no se enfrenta a esta disyuntiva. Puede combinar la amplitud y la profundidad de la experiencia, para demostrar capacidades de razonamiento clínico que, en muchos aspectos del razonamiento clínico, superan las de cualquier médico individual.
Este tipo de razonamiento tiene el potencial de remodelar la atención médica. La IA podría empoderar a los pacientes para autogestionar los aspectos rutinarios de la atención y equipar a los médicos con apoyo avanzado para la toma de decisiones en casos complejos. Nuestros hallazgos también sugieren que la IA reduce los costos innecesarios de atención médica. El gasto sanitario de EE.UU. se acerca al 20% del PIB de EE.UU., y se estima que hasta el 25% de ese gasto se desperdicia, ya que tiene poca influencia en los resultados de los pacientes.
Por supuesto, nuestra investigación tiene importantes limitaciones. Aunque MAI-DxO sobresale en el abordaje de los desafíos de diagnóstico más complejos, se necesitan más pruebas para evaluar su rendimiento en presentaciones más comunes y cotidianas. Los médicos de nuestro estudio trabajaron sin acceso a colegas, libros de texto o incluso IA generativa, que pueden formar parte de su práctica clínica normal, para permitir una comparación justa con el rendimiento humano bruto.
Un aspecto novedoso de este trabajo es su atención al costo. Si bien los costos de salud en el mundo real varían según las zonas geográficas y los sistemas, e incluyen muchos factores posteriores que no tenemos en cuenta, aplicamos una metodología coherente en todos los agentes y médicos evaluados para ayudar a cuantificar las compensaciones de alto nivel entre la precisión del diagnóstico y el uso de recursos.
Para nosotros, este es solo el primer paso. Estamos energizados por las oportunidades que tenemos por delante. Quedan retos importantes por delante antes de que la IA generativa pueda desplegarse de forma segura y responsable en la sanidad. Necesitamos pruebas extraídas de entornos clínicos reales, junto con marcos regulatorios y de gobernanza adecuados para garantizar la fiabilidad, la seguridad y la eficacia. Es por eso que nos asociamos con organizaciones de salud líderes para probar y validar de manera rigurosa estos enfoques, un paso esencial antes de cualquier implementación más amplia.
Junto con nuestros socios, creemos con firmeza que el futuro de la atención médica se moldeará a través de aumentar la experiencia humana y la empatía con el poder de la inteligencia artificial. Estamos entusiasmados de dar los próximos pasos para hacer realidad esa visión.
—
Más información:
SD Bench y MAI-DxO son solo demostraciones de investigación y en la actualidad no están disponibles como puntos de referencia públicos u orquestadores. Pueden encontrar más detalles sobre la metodología subyacente y los resultados en un artículo preimpreso publicado junto con este blog. Estamos en el proceso de presentar este trabajo para una revisión externa por pares y trabajamos de manera activa con socios para explorar el potencial de lanzar SDBench como un punto de referencia público.
Agradecimientos:
Agradecemos a NEJM Group por el permiso para utilizar los casos de NEJM en la investigación reportada en esta publicación de blog. La investigación descrita aquí se ha beneficiado de las ideas de muchas personas. Agradecemos a los autores nombrados en el artículo de arXiv y al equipo más amplio de MAI. También agradecemos a otros colegas tanto dentro como fuera de Microsoft por compartir sus ideas, incluidos Bryan Bunning, Nando de Freitas, Andrija Milicevic, Hoifung Poon, David Rhew, Karén Simonyan, Eric Topol y Jim Weinstein. Gianluca Fontana y Kevin Hawkins (Prova Health) brindaron apoyo en la sección de economía y resultados de la salud.
Ver Publicación (en inglés)
—Preguntas y respuestas
¿Es seguro usar esta IA para la atención médica?
El trabajo presentado aquí aún no está aprobado para uso clínico y solo se aprobaría después de rigurosas pruebas de seguridad, validación clínica y revisiones regulatorias. Por ahora, esto representa una investigación inicial emocionante. En el corazón de cualquier plan para implementar esta tecnología en el mundo real se encuentra nuestro compromiso con la seguridad, la confianza y la calidad, para asegurar que cualquier solución de atención médica esté fundamentada a nivel clínico, diseñada de manera ética y comunicada de manera transparente.
¿Reemplazará la IA a los médicos?
Si bien la IA se ha comenzado a convertir en una herramienta poderosa en la atención médica, nuestro equipo de médicos en ejercicio cree que la IA representa un complemento para los médicos y otros profesionales de la salud. Si bien esta tecnología avanza con rapidez, sus funciones clínicas son mucho más amplias que sólo hacer un diagnóstico. Necesitan navegar por la ambigüedad y generar confianza con los pacientes y sus familias de una manera que la IA no está configurada para hacer. Creemos que las funciones clínicas evolucionarán con la IA, lo que dará a los médicos la capacidad de automatizar las tareas rutinarias, identificar enfermedades antes, personalizar los planes de tratamiento y, de manera potencial, prevenir algunas enfermedades por completo. Para los consumidores, proporcionarán mejores herramientas para la autogestión y la toma de decisiones compartida.
¿Qué es un orquestador de IA?
En el contexto de la IA generativa, un orquestador es como un director digital que ayuda a coordinar múltiples pasos para lograr una tarea compleja. En el sector sanitario, el papel de la orquestación es crucial dado lo mucho que está en juego en cada decisión. Nuestro orquestador se encuentra por encima de los modelos de lenguaje subyacentes y se asegura de que cada punto para obtener un diagnóstico se maneje de manera sistemática, lo que reduce el riesgo de errores en el futuro y ofrece la estabilidad, la coherencia y la transparencia necesarias para generar confianza en los usuarios.
¿Por qué se han fijado en los costes?
En un inicio, queríamos entender si la IA sólo solicitaba pruebas diagnósticas excesivas para llegar al diagnóstico correcto. Lo que descubrimos fue que nuestro orquestador fue capaz de llegar a la respuesta correcta con mucho menos dinero gastado en pruebas. En cierto modo, esto no es una sorpresa, ya que se reconoce que el exceso de pruebas diagnósticas es un desafío generalizado, lo que representa millones de pruebas innecesarias al año en los EE. UU. Este trabajo sugiere que la IA crea una oportunidad para que los médicos, y los consumidores, lleguen a un diagnóstico más rápido y preciso, al tiempo que reducen los costos.