Por: Scott Guthrie, vicepresidente ejecutivo de Cloud + AI.
Hace unos días presentamos una ola de centros de datos diseñados de manera especial e inversiones en infraestructura que realizamos en todo el mundo para respaldar la adopción global de cargas de trabajo de IA y servicios en la nube de vanguardia.
En Wisconsin presentamos Fairwater, nuestro centro de datos de IA más nuevo de EE. UU., la fábrica de IA más grande y sofisticada que hemos construido hasta ahora. Además de nuestro centro de datos Fairwater en Wisconsin, también tenemos varios centros de datos Fairwater idénticos en construcción en otras ubicaciones de los EE. UU.
En Narvik, Noruega, Microsoft anunció planes con nScale y Aker JV para desarrollar un nuevo centro de datos de IA a hiperescala.
En Loughton, Reino Unido, anunciamos una asociación con nScale para construir la supercomputadora más grande del Reino Unido para respaldar los servicios en el Reino Unido.
Estos centros de datos de IA son importantes proyectos de capital, que representan decenas de miles de millones de dólares en inversiones y cientos de miles de chips de IA de vanguardia, y se conectarán sin problemas con nuestra nube global de Microsoft de más de 400 centros de datos en 70 regiones de todo el mundo. A través de la innovación que puede permitirnos vincular estos centros de datos de IA en una red distribuida, multiplicamos la eficiencia y la computación de manera exponencial para democratizar aún más el acceso a los servicios de IA a nivel mundial.
Entonces, ¿qué es un centro de datos de IA?
El centro de datos de IA: la nueva fábrica de la era de la IA

Un centro de datos de IA es una instalación única, diseñada en específico para el entrenamiento de IA, así como para ejecutar modelos y aplicaciones de inteligencia artificial a gran escala. Los centros de datos de IA de Microsoft impulsan OpenAI, Microsoft AI, nuestras capacidades de Copilot y muchas más cargas de trabajo de IA líderes.
El nuevo centro de datos de Fairwater AI en Wisconsin se erige como una notable hazaña de ingeniería, que cubre 315 acres y alberga tres edificios masivos con un total combinado de 1.2 millones de pies cuadrados bajo techo. La construcción de esta instalación requirió 46.6 millas de pilotes de cimentación profundos, 26.5 millones de libras de acero estructural, 120 millas de cable subterráneo de media tensión y 72.6 millas de tuberías mecánicas.
A diferencia de los centros de datos en la nube típicos, que están optimizados para ejecutar muchas cargas de trabajo más pequeñas e independientes, como alojar sitios web, correo electrónico o aplicaciones comerciales, este centro de datos está diseñado para funcionar como una supercomputadora de IA masiva que utiliza una sola red plana que interconecta cientos de miles de las más recientes GPU NVIDIA. De hecho, ofrecerá 10 veces el rendimiento de la supercomputadora más rápida del mundo en la actualidad, lo que permitirá cargas de trabajo de inferencia y entrenamiento de IA a un nivel nunca antes visto.
El papel de nuestros centros de datos de IA: impulsar la IA de frontera
Los modelos de IA efectivos se basan en miles de computadoras que trabajan juntas, impulsadas por GPU o aceleradores de IA especializados, para procesar cálculos matemáticos simultáneos masivos. Están interconectados con redes muy rápidas para que puedan compartir resultados al instante, y todo esto está respaldado por enormes sistemas de almacenamiento que contienen los datos (como texto, imágenes o video) desglosados en tokens, las pequeñas unidades de información de las que aprende la IA. El objetivo es mantener estos chips ocupados todo el tiempo, porque si los datos o la red no pueden seguir el ritmo, todo se ralentiza.
El entrenamiento de IA en sí es un ciclo: la IA procesa tokens en secuencia, hace predicciones sobre el siguiente, las compara con las respuestas correctas y se ajusta a sí misma. Esto se repite billones de veces hasta que el sistema mejora en lo que sea que se entrene para hacer. Piensen en ello como la práctica de un equipo de fútbol profesional. Cada GPU es un jugador que ejecuta un ejercicio, las fichas son las jugadas que se ejecutan paso a paso y la red es el cuerpo técnico, que grita instrucciones y mantiene a todos sincronizados. El equipo repite jugadas una y otra vez, y corrige errores hasta que pueden ejecutarlos a la perfección. Al final, el modelo de IA, al igual que el equipo, ha dominado su estrategia y está listo para funcionar en condiciones reales de juego.
Infraestructura de IA a escala de frontera
La infraestructura diseñada de manera especial es fundamental para poder impulsar la IA de manera eficiente. Para calcular las matemáticas de tokens en esta escala de billones de parámetros de los principales modelos de IA, el núcleo del centro de datos de IA se compone de aceleradores de IA dedicados (como GPU) montados en placas de servidor junto con CPU, memoria y almacenamiento. Un solo servidor aloja varios aceleradores de GPU, conectados para una comunicación de gran ancho de banda. Estos servidores se instalan en un bastidor, con conmutadores de la parte superior del bastidor (ToR, por sus siglas en inglés) que proporcionan redes de baja latencia entre ellos. Cada rack del centro de datos está interconectado, para crear un clúster acoplado de manera estrecha. Desde el exterior, esta arquitectura se parece a muchos servidores independientes, pero a escala funciona como una única supercomputadora donde cientos de miles de aceleradores pueden entrenar un solo modelo en paralelo.
Este centro de datos ejecuta un único clúster masivo de servidores NVIDIA GB200 interconectados y millones de núcleos de cómputo y exabytes de almacenamiento, todos diseñados para las cargas de trabajo de IA más exigentes. Azure fue el primer proveedor de nube en poner en línea los clústeres de servidores, racks y centros de datos completos de NVIDIA GB200. Cada rack incluye 72 GPU NVIDIA Blackwell, unidas en un solo dominio NVLink que ofrece 1,8 terabytes de ancho de banda de GPU a GPU y le da a cada GPU acceso a 14 terabytes de memoria agrupada. En lugar de comportarse como docenas de chips separados, el bastidor funciona como un acelerador único y gigante, capaz de procesar la asombrosa cantidad de 865 mil tokens por segundo, el rendimiento más alto de cualquier plataforma en la nube disponible en la actualidad. Los centros de datos de IA de Noruega y el Reino Unido utilizarán clústeres similares y aprovecharán el próximo diseño de chip de IA de NVIDIA (GB300) que ofrece aún más memoria agrupada por rack.
El desafío de establecer la escala de supercomputación, en particular a medida que los requisitos de entrenamiento de IA requieren escalas innovadoras de computación, es lograr que la topología de red sea la correcta. Para garantizar una comunicación de baja latencia en varias capas en un entorno de nube, Microsoft necesitaba ampliar el rendimiento más allá de un solo bastidor. Para las últimas implementaciones de NVIDIA GB200 y GB300 a nivel mundial, a nivel de bastidor, estas GPU se comunican a través de NVLink y NVSwitch a terabytes por segundo, lo que colapsa las barreras de memoria y ancho de banda. A continuación, para conectarse a través de varios bastidores en un pod, Azure usa estructuras InfiniBand y Ethernet que ofrecen 800 Gbps, en una arquitectura sin bloqueo de árbol completo para garantizar que cada GPU pueda comunicarse con todas las demás GPU a velocidad de línea completa sin congestión. Y en todo el centro de datos, varios pods de racks están interconectados para reducir el número de saltos y permitir que decenas de miles de GPU funcionen como una supercomputadora a escala global.
Cuando se coloca en un pasillo de centro de datos tradicional, la distancia física entre bastidores introduce latencia en el sistema. Para abordar esto, los racks en el centro de datos de Wisconsin AI están dispuestos en una configuración de centro de datos de dos pisos, por lo que, además de los racks conectados en red a racks adyacentes, están conectados en red a racks adicionales por encima o por debajo de ellos.
Este enfoque por capas distingue a Azure. Microsoft Azure no solo fue la primera nube en poner GB200 en línea a escala de rack y centro de datos; lo hacemos a gran escala con los clientes hoy. Al diseñar la pila completa de manera conjunta con lo mejor de nuestros socios de la industria, junto con nuestros propios sistemas diseñados de manera especial, Microsoft ha construido la supercomputadora de IA más poderosa y acoplada del mundo, diseñada en específico para modelos de frontera.

Abordar el impacto ambiental: refrigeración líquida de circuito cerrado a escala de instalación
La refrigeración por aire tradicional no puede manejar la densidad del hardware de IA moderno. Nuestros centros de datos utilizan sistemas avanzados de refrigeración líquida: las tuberías integradas hacen circular el líquido frío directo en los servidores, lo que extrae el calor de manera eficiente. La recirculación de circuito cerrado garantiza un desperdicio de agua cero, ya que el agua solo necesita llenarse una vez y luego se reutiliza de manera continua.
Al diseñar centros de datos de IA con este diseño especial, pudimos construir una infraestructura de refrigeración líquida en la instalación de manera directa, para obtener más densidad de rack en el centro de datos. Fairwater cuenta con el respaldo de la segunda planta enfriadora de agua más grande del planeta y hará circular agua de manera continua en su sistema de enfriamiento de circuito cerrado. Luego, el agua caliente se canaliza a las «aletas» de enfriamiento a cada lado del centro de datos, donde 172 ventiladores de 20 pies enfrían y recirculan el agua de regreso al centro de datos. Este sistema mantiene el centro de datos de IA en funcionamiento de manera eficiente, incluso en cargas máximas.

Más del 90% de la capacidad de nuestro centro de datos utiliza este sistema, lo que requiere agua solo una vez durante la construcción y reutilizándola de manera continua sin pérdidas por evaporación. El 10% restante de los servidores tradicionales utilizan aire exterior para enfriarse y cambian a agua solo durante los días más calurosos, un diseño que reduce de manera importante el uso de agua en comparación con los centros de datos tradicionales.
También utilizamos refrigeración líquida para admitir cargas de trabajo de IA en muchos de nuestros centros de datos existentes; esta refrigeración líquida se logra con unidades intercambiadoras de calor (HXU) que también funcionan con un uso de agua operativo cero.
Almacenamiento y computación: Diseñado para la velocidad de la IA
Los centros de datos modernos pueden contener exabytes de almacenamiento y millones de núcleos de proceso de CPU. Para admitir el clúster de infraestructura de IA, se necesita una infraestructura de centro de datos independiente por completo para almacenar y procesar los datos utilizados y generados por el clúster de IA. Para darles un ejemplo de la escala, ¡los sistemas de almacenamiento del centro de datos de IA de Wisconsin tienen cinco campos de fútbol de longitud!

Rediseñamos el almacenamiento de Azure para las cargas de trabajo de IA más exigentes, en estas implementaciones masivas de centros de datos para una verdadera escala de supercomputación. Cada cuenta de Azure Blob Storage puede soportar más de 2 millones de transacciones de lectura y escritura por segundo y, con millones de cuentas disponibles, podemos escalar de forma elástica para satisfacer prácticamente cualquier requisito de datos.
Detrás de esta capacidad hay una base de almacenamiento rediseñada que agrega capacidad y ancho de banda en miles de nodos de almacenamiento y cientos de miles de unidades. Esto permite el almacenamiento a escala de exabytes, lo que elimina la necesidad de fragmentación manual y simplifica las operaciones incluso para las cargas de trabajo de IA y análisis más grandes.
Las innovaciones clave como BlobFuse2 ofrecen acceso de alto rendimiento y baja latencia para el entrenamiento local de nodos de GPU, lo que garantiza que los recursos informáticos nunca estén inactivos y que los conjuntos de datos de entrenamiento masivos de IA estén siempre disponibles cuando sea necesario. El soporte multiprotocolo permite una integración perfecta con diversas canalizaciones de datos, mientras que la integración profunda con motores de análisis y herramientas de IA acelera la preparación y el despliegue de datos.
El escalado automático asigna de manera dinámica los recursos a medida que crece la demanda, combinado con seguridad avanzada, resiliencia y almacenamiento por niveles rentable, la plataforma de almacenamiento de Azure marca el ritmo de las cargas de trabajo de próxima generación, brindando el rendimiento, la escalabilidad y la confiabilidad necesarios.
AI WAN: Conexión de múltiples centros de datos para una supercomputadora de IA aún más grande
Estos nuevos centros de datos de IA forman parte de una red global de centros de datos de Azure AI, interconectados a través de nuestra red de área extensa (WAN, por sus siglas en inglés). No se trata solo de un edificio, se trata de un sistema distribuido, resiliente y escalable que funciona como una única y poderosa máquina de IA. Nuestra WAN de IA está diseñada con capacidades de crecimiento en escalas de ancho de banda nativas de IA para permitir el entrenamiento distribuido a gran escala en varias regiones de Azure de una gran diversidad geográfica, lo que permite a los clientes aprovechar la potencia de un superequipo de IA gigante.
Este es un cambio fundamental en la forma en que pensamos sobre las supercomputadoras de IA. En lugar de estar limitados por las paredes de una sola instalación, construimos un sistema distribuido donde los recursos informáticos, de almacenamiento y de red se agrupan y orquestan sin problemas en las regiones del centro de datos. Esto significa una mayor resiliencia, escalabilidad y flexibilidad para los clientes.
Reuniéndolo todo
Para satisfacer las necesidades críticas de los mayores desafíos de IA, necesitábamos rediseñar cada capa de nuestra pila de infraestructura en la nube. No se trata solo de avances aislados, sino de componer múltiples enfoques nuevos en silicio, servidores, redes y centros de datos, lo que lleva a avances en los que el software y el hardware se optimizan como un sistema diseñado de manera especial.
El centro de datos de Microsoft en Wisconsin desempeñará un papel fundamental en el futuro de la IA, basado en tecnología real, inversión real e impacto real en la comunidad. A medida que conectamos esta instalación con otros centros de datos regionales, y a medida que cada capa de nuestra infraestructura se armoniza como un sistema completo, desatamos una nueva era de inteligencia impulsada por la nube, segura, adaptable y lista para lo que viene.
Para obtener más información sobre las innovaciones del centro de datos de Microsoft, consulten el recorrido virtual por el centro de datos en datacenters.microsoft.com.
Scott Guthrie es responsable de las soluciones y servicios de computación en la nube a hiperescala, incluida Azure, la plataforma de computación en la nube de Microsoft, las soluciones de IA generativa, las plataformas de datos y la información y la ciberseguridad. Estas plataformas y servicios ayudan a las organizaciones de todo el mundo a resolver desafíos urgentes e impulsar la transformación a largo plazo.