Investigación en Microsoft 2023: Un año de avances y descubrimientos innovadores en IA

No es frecuente que los investigadores a la vanguardia de la tecnología vean algo que les deje boquiabiertos. Pero eso es justo lo que sucedió en 2023, cuando los expertos en IA comenzaron a interactuar con GPT-4, un modelo de lenguaje grande (LLM, por sus siglas en inglés) creado por investigadores de OpenAI que fue entrenado a una escala sin precedentes.

«Vi algunas capacidades alucinantes que pensé que no vería en muchos años», dijo Ece Kamar, gerente de investigación de socios de Microsoft, durante un podcast grabado en abril.

A lo largo del año, los rápidos avances en IA llegaron a dominar la conversación pública, ya que los líderes tecnológicos y, al final, el público en general expresaron una mezcla de asombro y escepticismo después de experimentar con GPT-4 y aplicaciones relacionadas. ¿Será que vemos chispas de inteligencia artificial general—definida de manera informal como sistemas de IA que «demuestran amplias capacidades de inteligencia, incluido el razonamiento, la planificación y la capacidad de aprender de la experiencia«?

Si bien la respuesta a esa pregunta aún no está clara, es cierto que hemos entrado en la era de la IA y trae cambios profundos a la forma en que trabajamos y vivimos. En 2023, la IA salió del laboratorio y aportó innovaciones cotidianas que cualquiera puede utilizar. Millones de personas ahora interactúan con servicios basados en IA como ChatGPT. Los copilotos, la IA que ayuda con tareas complejas que van desde la búsqueda hasta la seguridad, se integran en el software y los servicios empresariales.

La base de toda esta innovación son años de investigación, incluido el trabajo de cientos de investigadores de clase mundial en Microsoft, con la ayuda de científicos, ingenieros y expertos en muchos campos relacionados. En 2023, la transición de la IA de la investigación a la realidad comenzó a acelerarse, lo que crea resultados más tangibles que nunca. Esta publicación repasa el progreso del año pasado, donde se destaca una muestra de la investigación y las estrategias que respaldarán un progreso aún mayor en 2024.

Fortalecer los cimientos de la IA

La IA con impacto social positivo es la suma de varias partes móviles integrales, incluidos los modelos de IA, la aplicación de estos modelos y la infraestructura y los estándares que respaldan su desarrollo y el desarrollo de los sistemas más grandes que sustentan. Microsoft redefine el estado de la técnica en estas áreas con mejoras en la eficiencia, el rendimiento y la capacidad de los modelos; la introducción de nuevos marcos de trabajo y estrategias de impulso que aumenten la usabilidad de los modelos; y las mejores prácticas que contribuyen a una IA sostenible y responsable.

Modelos avanzados

Los investigadores introdujeron las redes retentivas (RetNet), una alternativa a la arquitectura de transformadores dominante en el modelado del lenguaje. RetNet admite el paralelismo de entrenamiento y un rendimiento sólido, al tiempo que obtiene ganancias significativas en la eficiencia de la inferencia.
Para contribuir a modelos de lenguaje más eficientes y sostenibles desde el punto de vista computacional, los investigadores presentaron una arquitectura de transformador de 1 bit llamada BitNet.
Microsoft amplió su familia Phi de modelos de lenguaje pequeños con el Phi-2 de 2.700 millones de parámetros, que eleva el listón en el razonamiento y la comprensión del lenguaje entre los modelos base con hasta 13.000 millones de parámetros. El Phi-2 también alcanzó o superó el rendimiento de los modelos 25 veces más grandes que él en puntos de referencia complejos.
El lanzamiento de los modelos de lenguaje Orca (13.000 millones de parámetros) y, varios meses después, Orca 2 (7.000 millones y 13.000 millones de parámetros) demuestra cómo los métodos de entrenamiento mejorados, como la creación de datos sintéticos, pueden elevar el razonamiento de modelos pequeños a un nivel a la par con los modelos más grandes.
Para las experiencias de IA que reflejan de manera más fiel la forma en que las personas crean en todos los medios, la difusión componible (CoDi) toma como entrada una combinación de modalidades, como texto, audio e imagen, y produce una salida multimodal, como video con audio sincronizado.
Para modelar mejor el razonamiento humano y acelerar el tiempo de respuesta, el nuevo enfoque Skeleton-of-Thought hace que los LLM dividan las tareas en dos partes: crear un esquema de una respuesta y proporcionar detalles sobre cada punto en paralelo.

Métodos avanzados para el uso de modelos

AutoGen es un marco de código abierto para simplificar la orquestación, optimización y automatización de los flujos de trabajo de LLM para permitir y agilizar la creación de aplicaciones basadas en LLM.
Medprompt, una composición de estrategias de impulso, demuestra que solo con un impulso reflexivo y avanzado, los modelos básicos generales pueden superar a los modelos especializados, para ofrecer una alternativa más eficiente y accesible al ajuste fino de los datos seleccionados por expertos.
La base de prompts de recopilación de recursos ofrece técnicas y herramientas de solicitud diseñadas para ayudar a optimizar el rendimiento del modelo básico, incluido Medprompt, que se ha ampliado para su aplicación fuera de la medicina.
Con el objetivo de abordar los problemas asociados con las entradas largas, como el aumento de la latencia de respuesta, LLMLingua es un método de compresión de mensajes que aprovecha los modelos de lenguaje pequeños para eliminar tokens innecesarios.

Desarrollo y compartición de las mejores prácticas

Microsoft anunció la Alianza Microscaling (MX) con varios socios de la industria y dio a conocer el primer formato de datos abiertos de la industria destinado a permitir el entrenamiento y la inferencia de menos de 8 bits para modelos de IA, lo que ayuda a allanar el camino para un aprendizaje profundo más eficiente y escalable.
Para continuar con el avance en el desarrollo responsable de la IA en sus propias prácticas y en toda la industria, Microsoft apoyó los compromisos voluntarios de IA de la Casa Blanca. Mientras tanto, los miembros de la comunidad de investigación de la compañía continuaron con la examinación cuidadosa de las capacidades y limitaciones del modelo y estudia la identificación, medición y mitigación de los daños de la IA, incluso en el área de la IA multimodal. También priorizaron la transparencia como piedra angular de la IA responsable y centrada en el ser humano, incluso a través de herramientas de auditoría conjunta para evaluar la precisión del contenido generado por la IA.

Acelerar la exploración y el descubrimiento científicos

Microsoft utiliza la IA y otras tecnologías avanzadas para acelerar y transformar los descubrimientos científicos, para empoderar a los investigadores de todo el mundo con herramientas de vanguardia. En los laboratorios de investigación globales de Microsoft, los expertos en aprendizaje automático, física cuántica, biología molecular y muchas otras disciplinas abordan desafíos apremiantes en las ciencias naturales y de la vida.

Debido a las complejidades que surgen de múltiples variables y la naturaleza inherentemente caótica del clima, Microsoft utiliza el aprendizaje automático para mejorar la precisión de los pronósticos subestacionales.
Distributional Graphormer (DIG) es un marco de aprendizaje profundo para predecir estructuras de proteínas con mayor precisión, un problema fundamental en la ciencia molecular. Este avance podría ayudar a lograr avances en áreas de investigación críticas como la ciencia de los materiales y el descubrimiento de fármacos.
Al aprovechar los datos de proteínas a escala evolutiva, el marco de difusión de propósito general EvoDiff ayuda a diseñar nuevas proteínas de manera más eficiente, lo que puede ayudar en el desarrollo de enzimas industriales, incluso para fines terapéuticos.
MOFDiff, un modelo de difusión de grano grueso, ayuda a los científicos a refinar el diseño de nuevos marcos metal-orgánicos (MOF, por sus siglas en inglés) para la eliminación de bajo costo de dióxido de carbono del aire y otras corrientes de gas diluido. Esta innovación podría desempeñar un papel vital en la desaceleración del cambio climático.
Este episodio de la serie de podcasts de Microsoft Research Collaborators explora la investigación sobre los sistemas de almacenamiento de energía renovable, en específico las baterías de flujo, y analiza cómo el aprendizaje automático puede ayudar a identificar compuestos ideales para almacenar energía hidráulica y avanzar en la captura de carbono.
MatterGen es un modelo de difusión diseñado en específico para abordar el desafío central de la ciencia de los materiales mediante la generación eficiente de materiales novedosos y estables con las propiedades deseadas, como la alta conductividad de las baterías de iones de litio.
El aprendizaje profundo está a punto de revolucionar las ciencias naturales, lo que mejora el modelado y la predicción de sucesos naturales, lo que marca el comienzo de una nueva era de exploración científica y da lugar a avances significativos en sectores que van desde el desarrollo de fármacos hasta las energías renovables. DeepSpeed4Science, una nueva iniciativa de Microsoft, tiene como objetivo crear capacidades únicas a través de innovaciones tecnológicas de sistemas de IA para ayudar a los expertos en el dominio a descubrir los mayores misterios científicos de la actualidad.
Christopher Bishop, miembro técnico de Microsoft y director del equipo de AI4Science, publicó de manera reciente Deep Learning: Foundations and Concepts, un libro que «ofrece una introducción completa a las ideas que sustentan el aprendizaje profundo». Bishop habló sobre la motivación y el proceso detrás del libro, así como el impacto del aprendizaje profundo en las ciencias naturales, en la serie de podcasts AI Frontiers.

Maximizar los beneficios individuales y sociales de la IA

A medida que los modelos de IA crecen en capacidad, también lo hacen las oportunidades para capacitar a las personas para que logren más, como lo demuestra el trabajo de Microsoft en dominios como la salud y la educación este año. El compromiso de la empresa con el impacto humano positivo requiere que la tecnología de IA sea equitativa y accesible.

Peter Lee, vicepresidente corporativo de Investigación e Incubaciones de Microsoft, exploró el potencial de los LLM y los sistemas que impulsan para impactar en la atención médica de maneras que no han sido posibles para los avances anteriores de IA. Él y sus coautores examinan GPT-4 en el libro The AI Revolution in Medicine: GPT-4 and Beyond y en el informe especial «AI in Medicine» del New England Journal of Medicine.
Los investigadores continuaron el avance en la aplicación de la IA en radiología, para probar los límites de GPT-4 en el campo. También introdujeron un marco de preentrenamiento de lenguaje de visión que permite la alineación entre texto y múltiples imágenes radiológicas y un modelo multimodal para generar informes radiológicos.
Los esfuerzos de Microsoft en el espacio de la radiología ya respaldan los resultados del mundo real, y su investigación contribuye a un sistema de IA desarrollado por un hospital del Reino Unido que ayuda a los pacientes con cáncer a comenzar el tratamiento más rápido.
Los investigadores demostraron que los copilotos habilitados para LLM pueden ayudar a los facilitadores de grupos de chat de apoyo entre pares formados por pacientes y proveedores a redactar contenido educativo para los miembros, realizar un seguimiento de las largas discusiones con resumen de mensajes e identificar información errónea o consejos dañinos, lo que fortalece las comunidades de salud en línea como fuente de información y apoyo.
Un programa piloto para el proyecto de investigación Shiksha copilot, un asistente digital impulsado por IA, ayuda a los maestros en la India a crear planes de lecciones completos y apropiados para la edad de manera mucho más rápida, lo que abre tiempo para más tutoría y desarrollo profesional de los estudiantes.
El copiloto de Shiksha es parte de un esfuerzo más amplio, llamado Proyecto VeLLM, para ayudar a las personas de todos los idiomas y culturas a aprovechar los beneficios que ofrecen los LLM, incluso a través de la mejora de los modelos en idiomas distintos del inglés. El vicepresidente corporativo y director general de Microsoft Research India, Sriram Rajamani, habló sobre el proyecto y otros trabajos en el área de enfoque de tecnología y empoderamiento del laboratorio.

Más allá de la IA: Liderar la innovación tecnológica

Si bien la IA atrae mucha atención en el panorama de investigación actual, los investigadores de Microsoft todavía han conseguido bastante progreso en un espectro de áreas de enfoque técnico.

Project Silica, un sistema de almacenamiento basado en la nube respaldado por vidrio de cuarzo, está diseñado para proporcionar un almacenamiento de archivo sostenible y duradero que, en teoría, es capaz de durar miles de años.
Project Analog Iterative Machine (AIM) tiene como objetivo resolver problemas de optimización difíciles, cruciales en industrias como finanzas, logística, transporte, energía, atención médica y fabricación, de manera oportuna, eficiente desde el punto de vista energético y rentable. Sus diseñadores creen que el Proyecto AIM podría superar incluso a las computadoras digitales más poderosas.
Los investigadores de Microsoft demostraron que la telemedicina 3D (3DTM, por sus siglas en inglés), que utiliza la tecnología de comunicación Holoportation™, podría ayudar a mejorar la prestación de atención médica, incluso en todos los continentes, en una colaboración única con médicos y gobiernos de Escocia y Ghana.
En otra colaboración que tiene como objetivo ayudar a mejorar la medicina de precisión, Microsoft trabajó con colegas de la industria y académicos para lanzar Terra, una plataforma segura, centralizada y basada en la nube para la investigación biomédica en Microsoft Azure.
En el frente del hardware, los investigadores de Microsoft exploran auriculares mejorados con sensores, equipándolos con controles que utilizan la orientación de la cabeza y los gestos de las manos para permitir la privacidad sensible al contexto, el control audiovisual gestual y los avatares animados derivados del lenguaje corporal natural.

Colaboración entre el mundo académico, las industrias y las disciplinas

La colaboración entre empresas y disciplinas siempre ha desempeñado un papel importante en la investigación, y más aún a medida que la IA sigue con su rápido avance. Los grandes modelos que impulsan el progreso son componentes de sistemas más grandes que ofrecerán el valor de la IA a las personas. El desarrollo de estos sistemas y los marcos para determinar su papel en la vida de las personas y en la sociedad requiere el conocimiento y la experiencia de quienes entienden el contexto en el que van a operar: expertos en la materia, académicos, las personas que utilizan estos sistemas y otros.

El proyecto de investigación Find My Things, una aplicación para ayudar a las personas ciegas o con baja visión a encontrar objetos personales, reunió a investigadores y diseñadores ciudadanos para demostrar cómo las experiencias de IA se pueden personalizar para adaptarse a las necesidades individuales de las personas, un enfoque conocido como Teachable AI.
Los equipos de producto, investigación e incubación de Microsoft continuaron su trabajo juntos para poner a disposición de los clientes y de la comunidad de código abierto herramientas para el desarrollo responsable de la IA, para agregar la Biblioteca de Mitigaciones de IA Responsable y el Rastreador de IA Responsable a la Caja de Herramientas de IA Responsable de la compañía en febrero.
Los investigadores de Microsoft colaboraron con investigadores dentro del subcampo de la psicología de la psicometría para explorar cómo la ciencia de la medición psicológica puede ayudar a evaluar el rendimiento de los modelos a medida que los modelos de IA se vuelven más generales.
Los investigadores responsables de IA y los científicos aplicados ampliaron un marco en el que habían trabajado para medir los daños relacionados con la equidad en los sistemas de IA para dar cabida a los nuevos escenarios presentados por la incorporación de GPT-4 en Bing.
Los investigadores presentaron un marco para pensar en el impacto de la IA generativa en la forma en que las personas se comunican y una colección de estrategias para enfrentar los desafíos.
Microsoft Research estableció la red global Accelerate Foundation Models Research (AFMR) y la plataforma de recursos para reunir una comunidad de investigación interdisciplinaria en torno a la resolución de algunos de los mayores desafíos técnicos y sociales de la actualidad mediante la alineación de la IA con objetivos, valores y preferencias humanos compartidos; mejorar las interacciones entre humanos e IA; y acelerar los descubrimientos científicos. En línea con el apoyo de Microsoft a los compromisos voluntarios de IA responsable de la Casa Blanca, las subvenciones AFMR brindan acceso a modelos básicos de última generación para garantizar que los investigadores externos a la empresa puedan examinar de manera adecuada las aplicaciones de modelos de vanguardia y su impacto. Hasta la fecha, el acceso a los principales modelos de fundación se ha extendido a más de 190 investigadores principales de más de 100 instituciones de todo el mundo.
El programa de becarios de Microsoft Research AI & Society se creó para reunir a académicos y expertos líderes de todas las artes y ciencias para abordar los desafíos y oportunidades en la intersección de la IA y la sociedad, desde la protección de los derechos de autor en la era de los LLM hasta la reducción de las brechas digitales en el Sur Global. El programa recibió casi 3 mil propuestas en sus 13 desafíos durante su convocatoria inaugural este otoño, y los becarios seleccionados se anunciarán en enero de 2024.

Involucrar y apoyar a la comunidad investigadora en general

A lo largo del año, Microsoft continuó su interacción con la comunidad de investigación más amplia sobre IA y más allá. El patrocinio y la participación de la compañía en conferencias clave no solo mostraron su dedicación a la aplicación de la IA en diversos dominios tecnológicos, sino que también subrayaron su apoyo inquebrantable a los avances de vanguardia y la participación colaborativa de la comunidad.

Programación funcional

Microsoft se enorgulleció de patrocinar ICFP 2023, con contribuciones de investigación que cubren una variedad de temas de programación funcional, incluida la optimización de la memoria, el diseño de lenguajes y las técnicas de desarrollo de software.

Interacción persona-ordenador

En CHI 2023, los investigadores de Microsoft y sus colaboradores demostraron las innumerables y diversas formas en que las personas usan la informática hoy y lo harán en el futuro.

Modelos de lenguaje de gran tamaño y ML

Microsoft fue patrocinador de ACL 2023, donde mostró documentos que van desde la equidad en los modelos de lenguaje hasta la generación de lenguaje natural y más.
Microsoft también patrocinó NeurIPS 2023, donde publicó más de 100 artículos y realizó talleres sobre modelos de lenguaje, técnicas de aprendizaje profundo y conceptos, métodos y aplicaciones adicionales que abordan problemas apremiantes en el campo.
Con su patrocinio y contribución a ICML 2023, Microsoft mostró su inversión en el avance del campo del aprendizaje automático.
Microsoft patrocinó ML4H y participó en AfriCHI y EMNLP, una conferencia líder en procesamiento de lenguaje natural e IA, para destacar su compromiso de explorar cómo se pueden aplicar los LLM a la atención médica y otros dominios vitales.

Sistemas y redes avanzadas

Las contribuciones de investigación de Microsoft en SOSP 2023, una conferencia que patrocinó, abarcaron desde sistemas operativos y computación en la nube hasta sistemas móviles y perimetrales.
Como patrocinador de USENIX NDSI 2023, Microsoft reforzó su compromiso con el avance de las redes y los sistemas distribuidos, con artículos aceptados que cubren temas tan diversos como las redes de carga de trabajo de IA, la nube, WAN y las redes inalámbricas, donde mostró avances de vanguardia en la investigación de redes.
Microsoft tuvo un gran participante en EuroSys 2023, la principal conferencia de sistemas de Europa, donde destacó los desarrollos en innovación de sistemas en toda la pila para ayudar a respaldar una nube más fácil, rápida, segura e inteligente.
Como patrocinador de SIGCOMM 2023, Microsoft compartió sus innovaciones sobre la infraestructura de red fundamental que sustenta el ecosistema de la nube.
Desde las contribuciones a los modelos generativos y el preentrenamiento de la red hasta la comprensión del lenguaje de señas y los códecs de video neuronal, la participación de la compañía en CVPR 2023 subraya su compromiso con la evolución de las capacidades de los sistemas para analizar y extraer información valiosa de los datos visuales.

Elección de los oyentes: Podcasts destacados para 2023

Gracias por leer

Microsoft logró hitos extraordinarios en 2023 y continuará con la ampliación de los límites de la innovación para ayudar a dar forma a un futuro en el que la tecnología sirva a la humanidad de manera notable. Para estar al tanto de las últimas actualizaciones, suscríbanse al boletín informativo de Microsoft Research y al podcast de Microsoft Research. También pueden seguirnos en Facebook, Instagram, LinkedIn, X y YouTube.