Categoría: IA

octubre 31, 2024

De la predicción de tormentas al diseño de moléculas: cómo los nuevos modelos de IA pueden acelerar el descubrimiento científico

Por

Catherine Bolgar

La gente siempre ha buscado patrones para explicar el universo y predecir el futuro. «Cielo rojo por la noche, delicia de marinero. Cielo rojo por la mañana, aviso al marinero» es un adagio que predice el tiempo.

La IA es muy buena para ver patrones y hacer predicciones. Ahora, los investigadores de Microsoft trabajan para aplicar «modelos básicos» (modelos a gran escala que aprovechan los recientes avances de la IA) a las disciplinas científicas. Estos modelos se entrenan con una amplia variedad de datos y pueden sobresalir en muchas tareas, en contraste con modelos más especializados. Tienen el potencial de generar respuestas en una fracción del tiempo que de manera tradicional se requiere y ayudar a resolver problemas más sofisticados.

Algunas de las disciplinas científicas muy diferentes que prometen avanzar a través de la IA incluyen la ciencia de los materiales, la ciencia del clima y las ciencias de la salud y la vida. Los expertos dicen que los modelos de base adaptados a estas disciplinas acelerarán el proceso de descubrimiento científico, lo que les permitirá crear más rápido cosas prácticas como medicamentos, nuevos materiales o pronósticos meteorológicos más precisos, pero también comprender mejor los átomos, el cuerpo humano o la Tierra. En la actualidad, muchos de estos modelos aún están en desarrollo en Microsoft Research, y el primero, un modelo meteorológico llamado Aurora, ya está disponible.

«La IA es una herramienta en tu arsenal que puede apoyarte», dijo Bonnie Kruft, socia y subdirectora de Microsoft Research, que ayuda a supervisar su laboratorio de IA for Science. «La idea es que trabajamos en modelos muy específicos de la ciencia en lugar de modelos específicos del lenguaje. Vemos esta increíble oportunidad de ir más allá de los grandes modelos tradicionales basados en el lenguaje humano hacia un nuevo paradigma que emplea matemáticas y simulaciones moleculares para crear un modelo aún más poderoso para el descubrimiento científico».

Una mujer sentada en una silla en un espacio de oficina — Bonnie Kruft, socia y subdirectora de Microsoft Research que ayuda a supervisar su laboratorio de IA for Science. Foto de Jonathan Banks para Microsoft.

Los avances recientes de la IA, que han permitido a las personas planificar fiestas o generar presentaciones gráficas con algunos prompts conversacionales u obtener resúmenes instantáneos de las reuniones que se han perdido, fueron impulsados en un inicio por una nueva clase de modelos de IA, conocidos como grandes modelos de lenguaje (LLM, por sus siglas en inglés). Este tipo de modelo básico se entrena con grandes cantidades de texto para realizar una amplia variedad de tareas relacionadas con el lenguaje. Ahora, los investigadores de Microsoft han descubierto cómo algunas de estas mismas arquitecturas y enfoques de IA pueden impulsar avances en el descubrimiento científico.

«Los grandes modelos de lenguaje tienen dos propiedades notables que son muy útiles. La primera es, por supuesto, que pueden generar y entender el lenguaje humano, por lo que proporcionan una maravillosa interfaz humana a tecnologías muy sofisticadas. Pero la otra propiedad de los grandes modelos de lenguaje, y creo que esto fue una gran sorpresa para muchos de nosotros, es que pueden funcionar como motores de razonamiento efectivos. Y, por supuesto, eso va a ser muy útil en el descubrimiento científico», dijo Chris Bishop, miembro técnico y director de Microsoft Research AI for Science, en un discurso de apertura en el Foro de Investigación de Microsoft a principios de este año.

Al principio, los investigadores de IA pensaron que modelos muy específicos entrenados para realizar una tarea limitada, como los que podían ganar en ajedrez o backgammon (pero no ambos), o aquellos que podían traducir idiomas o transcribir grabaciones (pero no ambos), superarían a los modelos generalizados más grandes como los LLM. Pero resultó ser todo lo contrario: no hubo necesidad de entrenar un modelo para responder preguntas o resumir la investigación sobre derecho, otro en física y otro en Shakespeare porque un modelo grande y generalizado pudo superar su rendimiento en diferentes temas y tareas. Ahora, los investigadores investigan la posibilidad de que los modelos de base puedan hacer lo mismo con la ciencia.

De manera tradicional, el descubrimiento científico implicaba desarrollar una hipótesis, probarla, ajustarla a lo largo de muchas iteraciones hasta encontrar una solución o empezar de nuevo, un proceso de eliminación de lo que no funciona. Por el contrario, algunos modelos de base invierten ese guion al construir en lugar de eliminar. Los científicos pueden dar a los modelos de base parámetros, como las cualidades que quieren, y los modelos pueden predecir, por ejemplo, las combinaciones de moléculas que podrían funcionar. En lugar de encontrar una aguja en un pajar, los modelos sugieren de manera directa cómo hacer agujas.

En algunos casos, estos modelos básicos también están diseñados para comprender el lenguaje natural, lo que facilita a los científicos la escritura de prompts. Para buscar un nuevo material, por ejemplo, los científicos podrían especificar que quieren una molécula que sea estable (que no se deshaga), que no sea magnética, que no conduzca la electricidad y que no sea rara ni cara.

Los LLM se entrenan con texto, palabras, pero los modelos básicos que los investigadores de Microsoft han desarrollado para avanzar en el descubrimiento se han entrenado de manera primordial en los lenguajes de la ciencia, no solo en libros de texto científicos y trabajos de investigación, sino también en montañas de datos generados a partir de la resolución de esas ecuaciones de física o química.

Al igual que algunos alimentos se cocinan mejor fritas, otros hervidos y otros horneados, así también diferentes problemas científicos se prestan a diferentes técnicas de IA. Muchos modelos de IA desarrollados de manera reciente son generativos: generan respuestas e imágenes basadas en solicitudes de lenguaje natural. Pero algunos modelos de IA son emuladores, que pueden simular las propiedades o comportamientos de algo.

Sin embargo, cada uno de estos modelos de base es amplio: el modelo de materiales no intenta descubrir solo un tipo de material, sino muchos, y el modelo atmosférico no es solo para predecir la lluvia, sino también otros fenómenos como la contaminación. Esta capacidad de hacer muchas cosas es clave para definir un modelo de IA como modelo básico. Y el objetivo es, de manera eventual, vincular múltiples modelos para crear modelos aún más amplios, porque los modelos más amplios y diversos han superado a los más estrechos en otras áreas.

MatterGen para nuevos materiales

El descubrimiento de nuevos materiales puede parecer un campo estrecho, pero de hecho, es un gran foco de investigación y desarrollo porque hay muchos tipos (aleaciones, cerámicas, polímeros, compuestos, semiconductores) y porque las posibles combinaciones de átomos en nuevas moléculas se cuentan por miles de millones. Los nuevos materiales son vitales para reducir el impacto de las emisiones de carbono, así como para encontrar sustitutos seguros de los materiales que ponen en peligro el medio ambiente o la salud.

El modelo de base MatterGen de Microsoft Research «puede generar de manera directa los materiales que satisfacen sus condiciones de diseño», dijo Tian Xie, gerente principal de investigación de Microsoft Research en Cambridge, Reino Unido. Los científicos no solo pueden decirle a MatterGen el tipo de material que quieren crear, sino también estipular propiedades mecánicas, eléctricas, magnéticas y otras.

«Les da a los científicos de materiales una forma de llegar a mejores hipótesis para los tipos de materiales que quieren diseñar», dijo Xie.

Un hombre sentado en una silla amarilla en un espacio de oficinas — Tian Xie, gerente principal de investigación de Microsoft Research en Cambridge, Reino Unido. Foto de Jonathan Banks para Microsoft.

Este es un avance con respecto a los métodos anteriores porque la IA es de tres a cinco órdenes de magnitud más eficiente en la generación de materiales que la detección de todos los millones de combinaciones potenciales para encontrar aquellas que cumplan con los criterios de los científicos, dijo Xie. MatterGen comienza con el criterio del científico y construye una solución, en lugar de comenzar con todas las posibilidades y examinar una y otra vez hasta que quedan un puñado de combinaciones potenciales que coinciden con los criterios del científico. Y es mucho, mucho más eficiente y económico que tratar de crear nuevos materiales en un laboratorio a través de prueba y error, dijo Xie, aunque es necesario trabajo de laboratorio para sintetizar los nuevos materiales candidatos.

MatterGen es un modelo de difusión, una arquitectura de IA que se ha utilizado en herramientas de creación de imágenes. En lugar de generar imágenes, MatterGen genera moléculas para nuevos materiales. Todos los datos que se han acumulado durante décadas, incluso siglos, de experimentos son demasiado exiguos para entrenar un modelo básico. Pero debido a que los campos científicos como la física y la química siguen ecuaciones matemáticas bien establecidas, el cálculo de esas ecuaciones muchas veces crea el volumen necesario de datos de entrenamiento de alta calidad. El equipo creó datos de entrenamiento para MatterGen por medio de una fórmula de mecánica cuántica llamada teoría del funcional de la densidad, que se ejecuta en computación de alto rendimiento, para generar unas 600 mil estructuras.

El equipo de investigación MatterGen de Microsoft trabajado con socios para validar algunos de los materiales que ha generado. Las áreas para el futuro incluyen formas de reciclar polímeros y crear marcos metal-orgánicos que podrían usarse para la captura de carbono. «Hasta ahora nos hemos comenzado a enfocar en materiales inorgánicos, pero en el futuro, esperamos expandirlo a materiales más complejos», dijo Xie.

MatterSim para predecir cómo funcionarán los nuevos materiales

Incluso con la ayuda de la IA, crear un nuevo material no es un proceso sencillo. MatterSim es un complemento de MatterGen, que simula, o predice, cómo se comportarán las moléculas de un nuevo material. Si el resultado no es lo que los científicos querían, pueden hacer un bucle iterativo con MatterGen, a través de ajustar las entradas de la misma manera que uno podría ajustar los prompts de Microsoft Copilot hasta que los resultados cumplan con los requisitos de los científicos. Sin embargo, a diferencia de MatterGen, MatterSim no es una IA generativa, sino un emulador que determina cómo se comportarán las moléculas bajo diferentes temperaturas y presiones.

MatterSim utiliza la arquitectura Grafor, que se basa en la idea básica de los transformadores, como los LLM, que separan palabras u oraciones para aprender a predecir la siguiente palabra en una oración, pero fue creada por Microsoft Research para el comportamiento y las propiedades de los materiales. «Está entrenado para dominar el lenguaje de los átomos», dijo Ziheng Lu, investigador principal de Microsoft Research AI for Science en Shanghái. «Predecir el comportamiento de los materiales es fundamental para los químicos. Lo que es más importante, es que el modelo domine el lenguaje de los átomos, para aprender de toda la tabla periódica. ¿Cómo se ve la molécula en el espacio de incrustación? ¿Cómo convertir la estructura de una molécula en un vector que la máquina pueda entender? Eso es lo más importante que hace MatterSim, además de su poder para predecir las propiedades de los materiales».

Un hombre con lentes y camisa azul, posa frente a una pared gris — Ziheng Lu, investigador principal de Microsoft Research AI for Science en Shanghái. Foto cortesía de Microsoft.

El modelo utiliza el aprendizaje activo, que es similar a la forma en que un estudiante podría estudiar para un examen. A medida que el modelo obtiene un nuevo dato, decide si no está seguro de él. Si es así, esos datos se introducen en la simulación para volver a entrenar el modelo, como los estudiantes que estudian las partes de un tema que aún no conocen, en lugar de las partes que ya han aprendido.

Existen muy pocos datos sobre el comportamiento de las moléculas, por lo que el equipo utilizó cálculos de mecánica cuántica para crear datos sintéticos, similares al ejemplo de MatterGen.

El resultado es diez veces más preciso que cualquier modelo anterior «porque somos capaces de generar datos para cubrir un espacio de materiales sin precedentes», dijo Lu. «Eso hace que el modelo sea muy preciso».

Por ahora, MatterSim se centra en materiales inorgánicos, pero es posible que se añadan otros tipos más adelante. «MatterSim es un modelo de base de dominio específico. Los investigadores de AI for Science se han comenzado a mover hacia un modelo unificado de gran base que comprende todo el lenguaje de la ciencia, como moléculas, biomoléculas, ADN, materiales, proteínas, todo esto podría unificarse más adelante, pero para MatterSim en este momento, lo que unificamos es toda la tabla periódica», dijo Lu.

Aurora para la predicción atmosférica

Las computadoras han sido durante mucho tiempo cruciales para las predicciones meteorológicas, al procesar los números en ecuaciones de física o dinámica de fluidos para tratar de simular el sistema atmosférico. «Ahora la IA y los modelos de base traen esta nueva oportunidad que es bastante diferente», dijo Paris Perdikaris, gerente principal de investigación de Microsoft Research AI for Science en Ámsterdam. «Salgamos y observemos el mundo y recopilemos tantos datos como podamos. Luego, entrenemos un sistema de IA que pueda procesar estos datos, pueda extraer patrones de estos datos y pueda ser predictivo para ayudarnos a pronosticar el clima, por ejemplo».

GIF con modelos de la Tierra creados por modelos de fundación — El globo terráqueo de la derecha muestra la predicción meteorológica de Aurora, mientras que el globo terráqueo de la izquierda muestra las condiciones reales que se midieron. Animación cortesía de Microsoft.

La gran ventaja de la IA es que, una vez entrenada, no requiere una gran potencia de cálculo. En la actualidad, generar un pronóstico del tiempo a 10 días con una supercomputadora que funciona las 24 horas del día toma alrededor de dos horas, dijo Perdikaris. Aurora, el modelo de base de Microsoft para la atmósfera, puede hacer ese trabajo en unos pocos segundos, por medio de una computadora de escritorio con una tarjeta GPU. «La principal diferencia que aportan los métodos de IA es la eficiencia computacional y la reducción del costo de obtener esos pronósticos», dijo.

Aurora también mejora la precisión porque no solo utiliza datos de modelos basados en la física, sino también datos del mundo real de satélites, estaciones meteorológicas y otras fuentes, «que contienen una representación más veraz de la realidad», dijo. «Debido a que está expuesta a todas estas diferentes fuentes de información, Aurora tiene la oportunidad de mezclarlas y producir una predicción más precisa que las herramientas de simulación convencionales que tenemos en su lugar».

Aurora es una gran red neuronal, un transformador de visión, que se entrenó con 1,2 petabytes de datos, unas diez veces el volumen de todo el texto en Internet. «Esto es todavía una pequeña fracción de los datos que describen el sistema de la Tierra», dijo Perdikaris.

Un hombre de traje posa en un área de oficina — Paris Perdikaris, directora principal de investigación de Microsoft Research AI for Science en Ámsterdam. Foto cortesía de Microsoft.

Tres preguntas típicas sobre el clima: ¿lloverá aquí en los próximos diez minutos? ¿Qué tiempo hará en la Tierra durante los próximos 10 días? ¿Cómo será el clima meses o años en el futuro? – todos han sido tratados por diferentes modelos de predicción hasta ahora. Aurora, y sus futuras extensiones, podrán responder a todas esas preguntas con un mismo modelo.

Aurora se entrenó con datos meteorológicos, pero al ajustarlos con datos de química atmosférica, el modelo también puede predecir los niveles de contaminación.

«Una de nuestras hipótesis iniciales era que podríamos aprovechar lo que el modelo aprende del clima y tratar de adaptarlo a nuevas tareas que están gobernadas por diferentes físicas, como la química atmosférica, y luego ver cómo lo hace», dijo Perdikaris. «Para nuestra sorpresa, ha funcionado y dado algunos resultados iniciales que son bastante prometedores».

Los beneficios de la IA son aún más pronunciados para las predicciones de contaminación, que son diez veces más costosas que las predicciones meteorológicas.

Hacer más accesibles los descubrimientos científicos

Lu anotó que los modelos podrían hacer que la ciencia sea mucho más atractiva para los estudiantes. Cuando obtenía sus títulos, tenía que escribir ecuaciones, «pero ahora, con estas simulaciones, podemos hacer las estadísticas por medio de una computadora o una computadora portátil. En verdad puedes ver la reacción, los comportamientos de las moléculas y los materiales en tiempo real en la pantalla. Te da una muy buena idea de lo que en verdad sucede, en lugar de solo mirar ecuaciones en papel».

Todos los modelos de base científica de Microsoft se construyeron desde cero en Azure. La compañía planea poner a disposición las primeras versiones de los modelos para ayudar a democratizar el descubrimiento científico y obtener comentarios de la comunidad. Esta retroalimentación ayudará a identificar aplicaciones prácticas que informarán y darán forma a futuras iteraciones de los modelos, dijo Kruft.

Los modelos de base tienen el potencial de transformar la vida cotidiana y revolucionar las industrias. Al acelerar los descubrimientos científicos, no solo se espera que impulsen avances rápidos en áreas como la medicina y los materiales, sino que también ofrezcan una visión más profunda de sistemas complejos como átomos, moléculas y proteínas, dijo Kruft, y agregó que esto, a su vez, abre vastas posibilidades comerciales en varias industrias.

Enlaces relacionados:

Más información: Microsoft Research AI for Science

Leer más: MatterGen: Diseño de materiales guiado por la propiedad

Leer más: MatterSim: Un modelo de aprendizaje profundo para materiales en condiciones del mundo real

Leer más: Presentación de Aurora: el primer modelo de cimentación a gran escala de la atmósfera

Imagen de portada: Los modelos de base de IA MatterGen y MatterSim ayudan a crear nuevos materiales y simulan su rendimiento. Foto de Jonathan Banks para Microsoft.