Escala infinita: La arquitectura detrás de la superfábrica de IA Azure

Por: Scott Guthrie, vicepresidente ejecutivo, Nube + IA.

Hace unos días presentamos la próxima sede de Fairwater de centros de datos Azure AI en Atlanta, Georgia. Este centro de datos diseñado de manera específica, está conectado a nuestro primer sitio en Fairwater en Wisconsin, a generaciones anteriores de superordenadores de IA y a la huella global más amplia de centros de datos Azure para crear la primera superfábrica de IA a escala planetaria del mundo. Al dotar una potencia de cálculo más densa que nunca, cada sitio de Fairwater está diseñado para satisfacer de manera eficiente una demanda sin precedentes de computación por IA, empujar los límites de la inteligencia modelo y empoderar a cada persona y organización del planeta para lograr más.

Para satisfacer esta demanda, hemos reinventado la manera en que diseñamos los centros de datos de IA y los sistemas que ejecutamos dentro de ellos. Fairwater supone un cambio respecto al modelo tradicional de centros de datos en la nube y utiliza una única red plana que puede integrar cientos de miles de las últimas GPUs NVIDIA GB200 y GB300 en un superordenador enorme. Estas innovaciones son fruto de décadas de experiencia en el diseño de centros de datos y redes, así como de aprendizajes adquiridos con el apoyo a algunos de los mayores trabajos de formación en IA del planeta.

Aunque el diseño del centro de datos Fairwater es muy adecuado para entrenar la próxima generación de modelos de frontera, también está diseñado con la fungibilidad en mente. La formación ha evolucionado de un solo trabajo monolítico a una variedad de cargas de trabajo con diferentes requisitos (como preentrenamiento, ajuste fino, aprendizaje por refuerzo y generación de datos sintéticos). Microsoft ha desplegado una columna vertebral dedicada a la IA WAN para integrar cada sitio de Fairwater en un sistema elástico más amplio que permite la asignación dinámica de diversas cargas de trabajo de IA y maximiza la utilización de la GPU en el sistema combinado.

A continuación, repasamos algunas de las innovaciones técnicas más interesantes que apoyan a Fairwater, desde la forma en que construimos centros de datos hasta la red dentro y entre los sitios.

Densidad máxima de cálculo

La infraestructura moderna de IA está cada vez más limitada por las leyes de la física. La velocidad de la luz es ahora un cuello de botella clave en nuestra capacidad para integrar de forma estrecha aceleradores, computación y almacenamiento con una latencia de alto rendimiento. Fairwater está diseñado para maximizar la densidad de cálculo y minimizar la latencia dentro y entre racks y maximizar el rendimiento del sistema.

Uno de los principales mecanismos para la densidad de conducción es mejorar la refrigeración a gran escala. Los servidores de IA en los centros de datos de Fairwater están conectados a un sistema de refrigeración a nivel de toda la instalación diseñado para la longevidad, con un enfoque de circuito cerrado que reutiliza el líquido de forma continua tras el llenado inicial sin evaporación. El agua utilizada en el relleno inicial equivale a lo que consumen 20 hogares al año y solo se reemplaza si la química del agua indica que es necesario (está diseñada para más de 6 años), lo que la hace muy eficiente y sostenible.

La refrigeración líquida también proporciona una transferencia de calor mucho mayor, permitiéndonos maximizar la potencia a nivel de rack y fila (~140 kW por rack, 1.360 kW por fila) para condensar el cálculo de la manera más densa posible dentro del centro de datos. La refrigeración de última generación también nos ayuda a maximizar la utilización de este denso cálculo en operaciones de estado estacionario, lo que permite que grandes trabajos de entrenamiento funcionen de manera eficiente a gran escala. Tras recorrer un sistema de caminos de placas frías a lo largo de la flota de GPUs, el calor es disipado por una de las plantas de refrigeración más grandes del planeta.

Una imagen de un sistema de enfriamiento líquido directo a nivel de rack. — Refrigeración líquida directa a nivel de rack.

Otra forma en la que impulsamos la densidad de cómputo es con un diseño de edificio de centro de datos de dos plantas. Muchas cargas de trabajo de IA son muy sensibles a la latencia, lo que significa que la longitud de los cables puede afectar de manera significativa al rendimiento del clúster. Cada GPU en Fairwater está conectada a todas las demás, por lo que el enfoque de construcción de centros de datos de dos plantas permite colocar racks en tres dimensiones para minimizar la longitud de los cables, lo que a su vez mejora la latencia, el ancho de banda, la fiabilidad y el coste.

Imagen de una aarquitectura de red de dos plantas — Arquitectura de red de dos plantas.

Energía de alta disponibilidad y bajo coste

Empujamos el límite al ofrecer este cómputo con energía rentable y fiable. El emplazamiento de Atlanta fue seleccionado con la energía eléctrica resiliente en mente y es capaz de alcanzar una disponibilidad de 4×9 a un coste de 3×9. Al asegurar una energía de red de una alta disponibilidad, también podemos prescindir de los enfoques tradicionales de resiliencia para la flota de GPUs (como la generación in situ, sistemas UPS y distribución de doble cable), lo que genera ahorros para los clientes y un tiempo de salida al mercado más rápido para Microsoft.

También hemos trabajado con nuestros socios industriales para codesarrollar soluciones de gestión de energía que mitiguen las oscilaciones de potencia provocadas por empleos a gran escala, un reto creciente para mantener la estabilidad de la red a medida que la demanda de IA crece. Esto incluye una solución impulsada por software que introduce cargas de trabajo suplementarias durante periodos de menor actividad, una solución impulsada por hardware donde las GPUs imponen sus propios umbrales de potencia y una solución de almacenamiento de energía in situ para enmascarar aún más las fluctuaciones de energía sin utilizar el exceso de energía.

Aceleradores y sistemas de redes de vanguardia

El diseño de centros de datos de clase mundial de Fairwater está impulsado por servidores diseñados en específico para este propósito, aceleradores de IA de vanguardia y sistemas de red novedosos. Cada centro de datos Fairwater ejecuta un único clúster coherente de GPUs NVIDIA Blackwell interconectadas, con una arquitectura de red avanzada que puede escalar de forma fiable más allá de los límites tradicionales de Clos con switches de última generación (cientos de miles de GPUs en una sola red plana). Esto requirió innovación en redes escaladas, redes escalables y protocolos de red.

En cuanto a escalado, cada rack de aceleradores de IA alberga hasta 72 GPUs NVIDIA Blackwell, conectadas vía NVLink para una comunicación de ultra baja latencia dentro del rack. Los aceleradores Blackwell proporcionan la mayor densidad de cálculo disponible hoy en día, con soporte para formatos numéricos de baja precisión como FP4 para aumentar el FLOPS total y permitir un uso eficiente de la memoria. Cada rack proporciona 1,8 TB de ancho de banda GPU a GPU, con más de 14 TB de memoria agrupada disponible para cada GPU.

Una imagen de racks de GPU densamente poblados con redes impulsadas por aplicaciones. — Racks de GPU con una alta densidad de población con redes dirigidas a aplicaciones.

Estos racks utilizan entonces redes escalables para crear pods y clústeres que permiten que todas las GPUs funcionen como un único superordenador con un número mínimo de saltos. Lo conseguimos con una red backend de dos niveles basada en ethernet que soporta tamaños masivos de clústeres con conectividad GPU a GPU de 800 Gbps. Depender de un ecosistema ethernet amplio y SONiC (Software para Red Abierta en la Nube – que es nuestro propio sistema operativo para nuestros switches de red) también nos ayuda a evitar el bloqueo de proveedores y a gestionar costes, ya que podemos usar hardware comercial en lugar de soluciones propietarias.

Las mejoras en el recorte de paquetes, la pulverización de paquetes y la telemetría de alta frecuencia son componentes fundamentales de nuestra red optimizada de IA. También trabajamos para permitir un control y optimización más profundos de las rutas de red. En conjunto, estas tecnologías ofrecen un control avanzado de congestión, detección y retransmisión rápida, y un balanceo ágil de cargas, lo que asegura un rendimiento ultra fiable y de baja latencia para cargas de trabajo modernas de IA.

Escala planetaria

Incluso con estas innovaciones, la demanda de cálculo para grandes trabajos de formación (ahora medidos en billones de parámetros) supera con rapidez las limitaciones de energía y espacio de una sola instalación. Para satisfacer estas necesidades, hemos construido una red óptica WAN de IA dedicada para ampliar las redes de escalabilidad y escalabilidad de Fairwater. Al aprovechar nuestra escala y décadas de experiencia en hiperescala, el año pasado entregamos más de 120.000 nuevas millas de fibra en todo Estados Unidos, lo que amplía el alcance y la fiabilidad de las redes de IA a nivel nacional.

Con esta columna vertebral de alto rendimiento y alta resiliencia, podemos conectar de manera directa diferentes generaciones de superordenadores en una superfábrica de IA que supera las capacidades de un solo sitio en ubicaciones con una gran diversidad geográfica. Esto permite a los desarrolladores de IA acceder a nuestra red más amplia de centros de datos Azure AI, lo que segmenta el tráfico según sus necesidades a través de redes de escalabilidad hacia arriba y hacia abajo dentro de un sitio, así como entre sitios a través del continente que abarca la WAN de IA.

Esto supone un cambio significativo respecto al pasado, cuando todo el tráfico tenía que seguir la red escalable sin importar los requisitos de la carga de trabajo. No solo proporciona a los clientes una red adecuada para su propósito a un nivel más detallado, sino que también ayuda a crear fungibilidad para maximizar la flexibilidad y el uso de nuestra infraestructura.

Reunir todo

El nuevo emplazamiento de Fairwater en Atlanta representa el siguiente salto en la infraestructura de IA de Azure y refleja nuestra experiencia en la gestión de los mayores trabajos de formación en IA del planeta. Combina innovaciones revolucionarias en densidad computacional, sostenibilidad y sistemas de redes para satisfacer de manera eficiente la enorme demanda de potencia computacional que presenciamos. También se integra a profundidad con otros centros de datos de IA y la plataforma Azure más amplia para formar la primera superfábrica de IA del mundo. En conjunto, estas innovaciones proporcionan una infraestructura flexible y adecuada que puede servir a todo el espectro de cargas de trabajo modernas de IA y empoderar a cada persona y organización del planeta para lograr más. Para nuestros clientes, esto significa una integración más sencilla de la IA en todos los flujos de trabajo y la capacidad de crear soluciones innovadoras de IA que antes eran inalcanzables.

Descubran más sobre cómo Microsoft Azure puede ayudarlos a integrar la IA para optimizar y fortalecer los ciclos de vida del desarrollo aquí.

Scott Guthrie es responsable de soluciones y servicios de computación en la nube a gran escala, incluido Azure, la plataforma de computación en la nube de Microsoft, soluciones de IA generativa, plataformas de datos y seguridad de la información y ciberseguridad. Estas plataformas y servicios ayudan a organizaciones de todo el mundo a resolver desafíos urgentes e impulsar la transformación a largo plazo.

Nota del editor: Se hizo una actualización para explicar con mayor claridad cómo optimizamos nuestra red.

Densidad máxima de cálculo

Energía de alta disponibilidad y bajo coste

Aceleradores y sistemas de redes de vanguardia

Escala planetaria

Reunir todo

Etiquetas: