De Wisconsin a Atlanta: Microsoft conecta centros de datos para construir su primera superfábrica de IA
En Atlanta, Microsoft ha cambiado el ciclo de una nueva clase de centro de datos: uno que no se mantiene solo, sino que se une a una red dedicada de sitios que funcionan como una superfábrica de IA para acelerar avances en IA y entrenar nuevos modelos a una escala que antes era imposible.
El nuevo centro de datos de IA en Atlanta, que comenzó a operar en octubre, es el segundo de la familia Fairwater de Microsoft. Comparte la misma arquitectura y diseño que la inversión anunciada por la empresa en Wisconsin hace unos meses. Pero no son solo edificios aislados poblados con sofisticadas y densas técnicas de silicio y refrigeración que usan casi cero agua.
Estos centros de datos de IA de Fairwater están conectados de manera directa entre sí —y con el tiempo con otros en construcción en todo Estados Unidos— con un nuevo tipo de red dedicada que permite que los datos fluyan entre ellos con una gran rapidez. Esto permite que los sitios de Fairwater, ubicados en diferentes estados, trabajen juntos como una superfábrica de IA para entrenar nuevas generaciones de modelos de IA mucho más rápido, para realizar trabajos en solo semanas en lugar de varios meses.
La red conectará múltiples sitios con cientos de miles de las GPUs más avanzadas que ejecutan cargas de trabajo de IA, exabytes de almacenamiento y millones de núcleos de CPU para tareas operativas de cómputo, que trabajan en conjunto para apoyar OpenAI, el equipo de Superinteligencia de IA de Microsoft, las capacidades de Copilot y otras cargas de trabajo líderes en IA.
«Se trata de construir una red distribuida que pueda actuar como un superordenador virtual para afrontar los mayores retos del mundo de formas que no se podrían hacer en una sola instalación», dijo Alistair Speirs, director general de Microsoft centrado en la infraestructura de Azure.
«Un centro de datos tradicional está diseñado para ejecutar millones de aplicaciones separadas para múltiples clientes», añadió. «La razón por la que llamamos a esto una superfábrica de IA es que ejecuta un trabajo complejo a través de millones de piezas de hardware. Y no es solo un sitio que entrena un modelo de IA, es una red de sitios que apoyan ese único trabajo.»

Los nuevos centros de datos de IA Fairwater de Microsoft tienen un diseño único que los diferencia de generaciones anteriores. Atlanta, por ejemplo, ofrece:
- una nueva arquitectura de chip y rack que ofrece el mayor rendimiento por rack de cualquier plataforma en la nube disponible hoy en día
- Sistemas NVIDIA GB200 NVL72 a escala rack que pueden escalar hasta cientos de miles de GPUs NVIDIA Blackwell
- un diseño de dos plantas que permite una mayor densidad de GPU
- Refrigeración líquida avanzada que consume casi cero agua en sus operaciones
- redes inteligentes, que permiten una comunicación rápida entre GPUs
- una nueva red dedicada que lo conecta con clústeres de computación de IA en otros sitios
El diseño de los sitios de Microsoft en Fairwater ha estado informado por años de construcción de infraestructuras de IA cada vez más potentes, capaces y eficientes. Desde el primer superordenador que Microsoft desarrolló en colaboración con OpenAI para el entrenamiento a gran escala de modelos de IA en 2019 hasta sistemas que entrenaron modelos OpenAI posteriores, Microsoft ha aprendido y mejorado cada diseño. Eso incluye refinar, inventar o replantear cada capa de la infraestructura de infraestructura.
«Liderar en IA no consiste solo en añadir más GPUs, sino en construir la infraestructura que las haga funcionar juntas como un solo sistema», dijo Scott Guthrie, vicepresidente ejecutivo de Microsoft Cloud + AI.
«Hemos pasado años en avanzar en la arquitectura, el software y las redes necesarias para entrenar los modelos más grandes de forma fiable, para que nuestros clientes puedan innovar con confianza. Fairwater refleja esa ingeniería integral y está diseñada para satisfacer la creciente demanda con un rendimiento real, no solo con capacidad teórica», afirmó.
Este nuevo tipo de centro de datos de IA está diseñado para acelerar cargas de trabajo de IA a gran escala e integrarse con la flota global de infraestructura de Microsoft para proporcionar fungibilidad a lo largo del ciclo de vida de la IA, incluido el entrenamiento de modelos de frontera e inferencias, o el uso de capacidades de IA para clientes de todo el mundo.

Diseñados en específico para la IA
Los centros de datos Fairwater de Microsoft están construidos desde cero para destacar en una sola tarea: entrenar y ejecutar nuevos modelos de IA. El crecimiento exponencial en el número de parámetros —que determinan cómo un modelo de IA procesa datos y ofrece respuestas— junto con cantidades mucho mayores de datos de entrenamiento, requieren recursos informáticos mayores.
Las empresas desarrollan modelos de IA cada vez más sofisticados que ahora alimentan miles de millones de chats al día, hacen que las jornadas laborales sean más eficientes y ayudan a la gente a comprender grandes cantidades de inteligencia empresarial. También mejorando la capacidad para predecir tormentas con mayor precisión, detectar patrones que mejoran el tratamiento médico e inventar nuevos materiales para resolver los retos energéticos.
«Para mejorar las capacidades de la IA, es necesario disponer de una infraestructura cada vez mayor para entrenarla», dijo Mark Russinovich, CTO, subdirector de CISO y miembro técnico de Microsoft Azure. «La cantidad de infraestructura necesaria ahora para entrenar estos modelos no es solo un centro de datos, no dos, sino múltiplos de ese.»
La red distribuida de los sitios de Microsoft en Fairwater está diseñada para permitirles soportar modelos de entrenamiento con cientos de billones de parámetros. Además, que la formación en IA ya no es un trabajo único y monolítico. Ahora abarca preentrenamiento, ajuste fino, aprendizaje por refuerzo, evaluación y generación de datos sintéticos, cada uno con requisitos únicos.
El novedoso nivel de conexión comienza dentro de cada centro de datos de Fairwater, donde cientos de miles de unidades de procesamiento gráfico NVIDIA Blackwell, o GPUs —el tipo de chip más utilizado para IA— están interconectadas. Cada uno de esos chips puede comunicarse con otros y compartir memoria dentro de un rack de servidores diseñado en específico para 72 GPU, y la información se comparte entre todas las GPUs del sitio con redes muy rápidas y de alto rendimiento.
No solo todos los chips de un mismo lugar están interconectados, sino que de manera física están muy cerca, tanto en los estantes como dentro del edificio. A diferencia de muchos centros de datos, el diseño de Fairwater utiliza dos plantas. Esto permite a Microsoft concentrar más potencia de cálculo en un espacio reducido para reducir la latencia, o retraso. Pero también trajo nuevos retos en el diseño de centros de datos que tuvieron que resolverse, como cómo pasar los cables y tuberías de refrigerante, además de lidiar con el peso de la segunda planta.

Conectar sitios para que funcionen como superfábrica de IA
A medida que Microsoft implemente más centros de datos de IA, también estarán conectados entre sí mediante una Red de Área Amplia de IA, o WAN de IA, mediante cables de fibra óptica dedicados. Eso permite que los datos viajen, sin congestión, casi a la velocidad de la luz.
Algunos de los cables de fibra óptica para la red de IA dedicada han sido construidos de nuevo; otros fueron adquiridos por Microsoft hace años y reutilizados. La empresa ha desplegado 120.000 millas de fibra dedicada para la red, para aumentar su kilometraje total en más de un 25% en un año.
Mientras tanto, el software que dirige el flujo de datos, llamado protocolo de red, ha sido ajustado, así como la arquitectura de red, para que las conexiones sean lo más directas posible.
La red WAN de IA conecta los chips y racks en un solo lugar a infraestructuras similares a muchos estados de distancia, de una manera que permite que los datos fluyan con cuellos de botella mínimos que generen latencia. Esto permite que varios sitios cooperen en el entrenamiento casi en tiempo real de modelos de forma más eficiente.
Las innovaciones de redes de Microsoft optimizan conexiones de baja latencia tanto dentro de cada sitio como a través de la red, con fibra óptica adecuada para su propósito.
Estas conexiones rápidas son esenciales para entrenar modelos de IA, que requieren un enfoque diferente al de los centros de datos en la nube, que ejecutan cargas de trabajo más pequeñas e independientes, como alojar sitios web, correo electrónico o aplicaciones empresariales. En cambio, los sitios de Fairwater deben funcionar como uno solo, con cientos de miles de las últimas GPUs NVIDIA que trabajan juntas como una superfábrica de IA en un enorme trabajo de cálculo.
Cada GPU ve una porción de los datos de entrenamiento y realiza su cálculo, pero también necesita compartir los resultados de su cálculo con todas las demás. Y luego todos necesitan actualizar el modelo de IA al mismo tiempo. Eso significa que si alguna parte del proceso está bloqueada o lenta, retrasa todo el trabajo mientras el resto de las GPUs permanecen inactivas, a la espera de que otras terminen, dijo Russinovich. El objetivo de la red Fairwater es mantener las GPUs ocupadas en todo momento.

Si es esencial intercambiar información de manera rápida, ¿por qué construir un segundo centro de formación tan lejos del primero en Wisconsin? Porque la disponibilidad de tierra y energía hace que sea más atractivo —y en este punto necesario— repartir el trabajo entre diferentes ubicaciones físicas.
«En verdad hay que hacer que puedas entrenar en varias regiones, y nadie se ha topado con ese problema todavía porque no han llegado a la escala en la que estamos ahora», dijo Russinovich.
Hacer que los sitios distantes funcionaran como uno solo requirió nuevas tecnologías de red y una infraestructura nueva dedicada a la tarea, similar en principio al carril de coche compartido en una autopista congestionada.
«El futuro de la IA se moldeará a través de conectar los centros de datos en un sistema unificado y distribuido. Al hacer que nuestros sitios de IA funcionen como uno solo, podemos ayudar a nuestros clientes a dar vida a modelos innovadores, ofrecer resultados que importan en el mundo real y empoderarles para resolver desafíos y crear nuevas oportunidades», dijo Guthrie.
Refrigeración de última generación
Dentro de un centro de datos Fairwater, la densidad de las GPUs plantea otro desafío: el calor. Los chips de IA generan más calor que los chips tradicionales. Así que Microsoft diseñó un complejo sistema de refrigeración en circuito cerrado para sus instalaciones de Fairwater, con el fin de sacar el líquido caliente del edificio para enfriarlo y devolverlo a las GPUs. Esto requirió una nueva configuración de tuberías, bombas y enfriadores para afrontar el reto de enfriar un sitio tan grande. El agua utilizada en el relleno inicial de Fairwater Atlanta equivale a lo que consumen 20 hogares al año y solo se reemplaza si la química del agua indica que es necesaria.
Cada aspecto de los centros de datos de IA y las innovaciones en redes de Fairwater han sido optimizados para ofrecer potencia de computación en IA con la mayor eficiencia y la utilización de los menos recursos. Esa innovación continua ha sido esencial para seguir satisfaciendo la demanda, dijo Speirs.
«Tenemos clientes e infraestructuras que ya han comenzado a entrenar modelos de IA a una escala tan grande», afirmó. «De verdad hemos sido nosotros los que llevamos cascos, para enfrentar los problemas más difíciles y romper muros de ladrillo.»
Imagen superior: Vista aérea del centro de datos de IA Fairwater en Atlanta.
Enlaces relacionados:
Leer más: Escala infinita: la arquitectura detrás de la superfábrica de IA de Azure
Leer más: Dentro del centro de datos de IA más potente del mundo
Leer más: Hecho en Wisconsin: El centro de datos de IA más potente del mundo