AI4Science para potenciar el quinto paradigma del descubrimiento científico

Por: Christopher Bishop, asociado técnico y director de AI4Science en Microsoft Research.

Durante la próxima década, parece que el aprendizaje profundo tendrá un impacto transformador en las ciencias naturales. Las consecuencias son, de manera potencial, de gran alcance y podrían mejorar nuestra capacidad para modelar y predecir fenómenos naturales en escalas de espacio y tiempo muy variables. ¿Podría esta capacidad representar el amanecer de un nuevo paradigma de descubrimiento científico?

LIBRO

El cuarto paradigma

Descubrimiento científico intensivo en datos

Jim Gray, ganador del premio Turing y ex asociado técnico de Microsoft, caracterizó la evolución histórica del descubrimiento científico a través de cuatro paradigmas. Con orígenes que se remontan a miles de años, el primer paradigma era sólo empírico y se basaba en la observación directa de los fenómenos naturales. Si bien muchas regularidades eran evidentes en estas observaciones, no había una forma sistemática de capturarlas o expresarlas. El segundo paradigma se caracterizó por modelos teóricos de la naturaleza, como las leyes del movimiento de Newton en el siglo XVII o las ecuaciones electrodinámicas de Maxwell en el siglo XIX. Derivadas por inducción a partir de la observación empírica, tales ecuaciones permitieron la generalización a una gama mucho más amplia de situaciones que las observadas de manera directa. Si bien estas ecuaciones podían resolverse de manera analítica para escenarios simples, no fue sino hasta el desarrollo de las computadoras digitales en el siglo XX que pudieron resolverse en casos más generales, lo que llevó a un tercer paradigma basado en la computación numérica. En los albores del siglo XXI, la computación volvió a transformar la ciencia, esta vez a través de la capacidad de recopilar, almacenar y procesar grandes volúmenes de datos, lo que condujo al cuarto paradigma del descubrimiento científico intensivo en datos. El aprendizaje automático constituye un componente cada vez más importante del cuarto paradigma, que permite modelar y analizar grandes volúmenes de datos científicos experimentales. Estos cuatro paradigmas son complementarios y coexisten.

El físico cuántico pionero Paul Dirac comentó en 1929 que “Las leyes físicas subyacentes necesarias para la teoría matemática de una gran parte de la física y de toda la química se conocen por completo, y la dificultad es sólo que la aplicación exacta de estas leyes conduce a ecuaciones demasiado complicadas para ser solubles”. Por ejemplo, la ecuación de Schrödinger describe el comportamiento de las moléculas y los materiales a nivel subatómico con una precisión exquisita y, sin embargo, la solución numérica con alta precisión solo es posible para sistemas muy pequeños que consisten en un puñado de átomos. Escalar a sistemas más grandes requiere aproximaciones cada vez más drásticas que conducen a un compromiso desafiante entre escala y precisión. Aun así, los cálculos de química cuántica ya tienen un valor práctico tan alto que forman una de las mayores cargas de trabajo de las supercomputadoras.

Sin embargo, durante los últimos uno o dos años, hemos visto el surgimiento de una nueva forma de explotar el aprendizaje profundo, como una herramienta poderosa para abordar esta compensación de velocidad versus precisión para el descubrimiento científico. Este es un uso muy diferente del aprendizaje automático del modelado de datos que caracteriza el cuarto paradigma, porque los datos que se usan para entrenar las propias redes neuronales provienen de la solución numérica de las ecuaciones fundamentales de la ciencia en lugar de la observación empírica. Podemos ver las soluciones numéricas de las ecuaciones científicas como simuladores del mundo natural que se pueden usar, con un alto costo computacional, para calcular cantidades de interés en aplicaciones tales como pronosticar el clima, modelar la colisión de galaxias, optimizar el diseño de reactores de fusión, o calcular las afinidades de unión de las moléculas candidatas de fármacos a una proteína objetivo. Sin embargo, desde una perspectiva de aprendizaje automático, los detalles intermedios de la simulación pueden verse como datos de entrenamiento que pueden usarse para entrenar emuladores de aprendizaje profundo. Dichos datos están etiquetados a la perfección y la cantidad de datos está limitada solo por el presupuesto computacional. Una vez entrenado, el emulador puede realizar nuevos cálculos con alta eficiencia, lo que permite mejoras significativas en la velocidad, a veces de varios órdenes de magnitud.

Este «quinto paradigma» del descubrimiento científico representa una de las fronteras más emocionantes para el aprendizaje automático, así como para las ciencias naturales. Si bien queda un largo camino por recorrer antes de que estos emuladores tengan la suficiente rapidez, sean robustos y de propósito general para convertirse en la corriente principal; el potencial de impacto en el mundo real es claro. Por ejemplo, el número de candidatos a fármacos de molécula pequeña se estima en 1,060, mientras que la cantidad total de materiales estables se estima en alrededor de 10,180 (alrededor del cuadrado de la cantidad de átomos en el universo conocido). Encontrar formas más eficientes de explorar estos vastos espacios transformaría nuestra capacidad para descubrir nuevas sustancias, como mejores medicamentos para tratar enfermedades, sustratos mejorados para capturar el dióxido de carbono atmosférico, mejores materiales para baterías, nuevos electrodos para celdas de combustible para impulsar la economía del hidrógeno y muchos otros.

AI4Science es un esfuerzo arraigado de manera profunda en la misión de Microsoft, donde se aplica toda la amplitud de nuestras capacidades de IA para desarrollar nuevas herramientas para el descubrimiento científico para que nosotros y otros en la comunidad científica podamos enfrentar algunos de los desafíos más importantes de la humanidad. Microsoft Research tiene un legado de más de 30 años de curiosidad y descubrimiento, y creo que el equipo de AI4Science, que abarca geografías y campos científicos, tiene el potencial de generar contribuciones extraordinarias a ese legado.

Kevin Scott, vicepresidente ejecutivo y director de tecnología de Microsoft

Estoy encantado de anunciar que lideraré un nuevo equipo global en Microsoft Research, que abarcará el Reino Unido, China y los Países Bajos, para centrarme en hacer realidad este quinto paradigma. Nuestro equipo de AI4Science está formado por expertos mundiales en aprendizaje automático, física cuántica, química computacional, biología molecular, dinámica de fluidos, ingeniería de software y otras disciplinas que trabajan juntas para abordar algunos de los desafíos más apremiantes en este campo.

Un proyecto de ejemplo es Graphormer, dirigido por mi colega Tie-Yan Liu en nuestro equipo de China. Este es un paquete de aprendizaje profundo que permite a los investigadores y desarrolladores entrenar modelos personalizados para tareas de modelado de moléculas, como la ciencia de los materiales o el descubrimiento de fármacos. De manera reciente, Graphormer ganó el Open Catalyst Challenge, una competencia de dinámica molecular que tiene como objetivo modelar el sistema de reacción de absorción de catalizador mediante IA, y cuenta con más de 0.66 millones de sistemas de relajación de absorción de catalizador (144 millones de marcos de estructura-energía) simulados por software de la teoría funcional de la densidad (DFT, por sus siglas en inglés). Otro proyecto, de nuestro equipo en Cambridge, en colaboración con Novartis, es Generative Chemistry, donde juntos capacitamos a los científicos con IA para acelerar el descubrimiento y el desarrollo de medicamentos innovadores.

Como señaló de manera reciente Iya Khalil, directora global del Laboratorio de innovación de IA de Novartis, el trabajo ya no es ciencia ficción sino ciencia en acción:

“La IA no solo puede aprender de nuestros experimentos anteriores, sino que, con cada nueva iteración de diseño y prueba en el laboratorio, los algoritmos de aprendizaje automático pueden identificar nuevos patrones y ayudar a guiar el proceso temprano de descubrimiento y desarrollo de fármacos. Con suerte, al hacer esto, podemos aumentar la experiencia de nuestros científicos humanos para que puedan diseñar mejores moléculas más rápido”.

Desde entonces, el equipo ha utilizado la plataforma para generar varias moléculas prometedoras en etapa temprana que se han sintetizado para una mayor exploración.

Junto con nuestros equipos en China y el Reino Unido, hemos desarrollado un equipo en los Países Bajos, incluida la contratación del experto en aprendizaje automático de renombre mundial, Max Welling. También estoy emocionado de poder anunciar hoy que nuestro nuevo laboratorio en Ámsterdam estará alojado en Matrix One, que en la actualidad se encuentra en construcción en el Parque Científico de Ámsterdam. Este espacio, diseñado de manera específica, se encuentra muy cerca de la Universidad de Ámsterdam y la Vrije Universiteit Amsterdam, y mantendremos fuertes afiliaciones con ambas instituciones a través de la supervisión en conjunto de estudiantes de doctorado.

Imagen del edificio Matrix One en Ámsterdam
Edificio Matrix One en Ámsterdam

Es con orgullo y entusiasmo que damos este próximo paso para unirnos como un equipo intergeográfico y seguir los pasos de los pioneros que nos precedieron, para contribuir a este próximo paradigma de descubrimiento científico y, al hacerlo, impactar muchos desafíos sociales importantes. Si comparten nuestra emoción y ambición, y les gustaría unirse a nosotros, los animo a ver nuestras posiciones abiertas o ponerse en contacto para hablar con cualquier miembro del equipo.

Tags: , , ,

Publicaciones Relacionadas