Microsoft Azure ofrece el primer clúster a gran escala con NVIDIA GB300 NVL72 para cargas de trabajo de OpenAI

Servidor tipo blade de un rack con NVIDIA GB300 NVL72 en la infraestructura de Azure AI.

Por: Rani Borkar, presidenta de Azure Hardware Systems and Infrastructure y Nidhi Chappell, vicepresidenta principal de Azure AI Infrastructure.

Microsoft ofrece el primer clúster de producción a escala con más de 4.600 NVIDIA GB300 NVL72, con GPU NVIDIA Blackwell Ultra conectadas a través de la red NVIDIA InfiniBand de próxima generación. Este clúster es el primero de muchos, ya que escalamos a cientos de miles de GPU Blackwell Ultra implementadas en los centros de datos de IA de Microsoft a nivel mundial, lo que refleja nuestro compromiso continuo de redefinir la infraestructura de IA y la colaboración con NVIDIA. Los clústeres de escala masiva con GPU Blackwell Ultra permitirán el entrenamiento de modelos en semanas en lugar de meses, lo que brindará un alto rendimiento para las cargas de trabajo de inferencia. También desbloqueamos modelos más grandes y potentes, y seremos los primeros en admitir modelos de entrenamiento con cientos de billones de parámetros.

Esto fue posible gracias a la colaboración entre hardware, sistemas, cadena de suministro, instalaciones y muchas otras disciplinas, así como con NVIDIA.

Impulsen la innovación revolucionaria de IA con Azure AI Infrastructure

El lanzamiento del superclúster NVIDIA GB300 NVL72 por parte de Microsoft Azure es un paso emocionante en el avance de la IA de vanguardia. Este sistema de ingeniería conjunta ofrece el primer clúster de producción GB300 a escala del mundo, para brindar el motor de supercomputación necesario para que OpenAI sirva a modelos de varios billones de parámetros. Esto establece el nuevo estándar definitivo para la computación acelerada.

Ian Buck, vicepresidente de hiperescala y computación de alto rendimiento de NVIDIA

De NVIDIA GB200 a GB300: un nuevo estándar en rendimiento de IA

A principios de este año, Azure presentó las máquinas virtuales (VM, por sus siglas en inglés) ND GB200 v6, aceleradas por la arquitectura Blackwell de NVIDIA. Estos se convirtieron con rapidez en la columna vertebral de algunas de las cargas de trabajo de IA más exigentes de la industria, incluso para organizaciones como OpenAI y Microsoft, que ya usan clústeres masivos de GB200 NVL2 en Azure para entrenar e implementar modelos de frontera.

Ahora, con las máquinas virtuales ND GB300 v6, Azure vuelve a subir el listón. Estas máquinas virtuales están optimizadas para modelos de razonamiento, sistemas de IA agentiva e IA generativa multimodal. Construido en un sistema a escala de bastidor, cada bastidor tiene 18 máquinas virtuales con un total de 72 GPU:

  • 72 GPU NVIDIA Blackwell Ultra (con 36 CPU NVIDIA Grace).
  • 800 gigabits por segundo (Gbp/s) por GPU de ancho de banda de escalabilidad horizontal entre bastidores a través de NVIDIA Quantum-X800 InfiniBand de próxima generación (2x GB200 NVL72).
  • 130 terabytes (TB) por segundo de ancho de banda de NVIDIA NVLink dentro del bastidor.
  • 37 TB de memoria rápida.
  • Hasta 1.440 petaflops (PFLOPS) de rendimiento FP4 Tensor Core.
Acercamiento de un servidor Azure con NVIDIA GB3000 NVL72, con GPUs Blackwell Ultra

Construir para la supercomputación de IA a escala

La construcción de infraestructura para la IA de frontera requiere que reimaginemos cada capa de la pila (computación, memoria, redes, centros de datos, refrigeración y energía) como un sistema unificado. Las máquinas virtuales ND GB300 v6 son una clara representación de esta transformación, después de años de colaboración en silicio, sistemas y software.

A nivel de rack, NVLink y NVSwitch reducen las restricciones de memoria y ancho de banda, lo que permite hasta 130 TB por segundo de transferencia de datos dentro del rack conectando un total de 37 TB de memoria rápida. Cada bastidor se convierte en una unidad estrechamente acoplada, lo que ofrece un mayor rendimiento de inferencia con latencias reducidas en modelos más grandes y ventanas de contexto más largas, lo que permite que los sistemas de IA agéntica y multimodal sean más receptivos y escalables que nunca.

Para escalar más allá del bastidor, Azure implementa una arquitectura completa de árbol grueso y sin bloqueo mediante NVIDIA Quantum-X800 Gbp/s InfiniBand, el tejido de red más rápido disponible en la actualidad. Esto garantiza que los clientes puedan escalar el entrenamiento de modelos ultragrandes de manera eficiente a decenas de miles de GPU con una sobrecarga de comunicación mínima, lo que brinda un mejor rendimiento de entrenamiento de extremo a extremo. La reducción de la sobrecarga de sincronización también se traduce en la máxima utilización de las GPU, lo que ayuda a los investigadores a iterar más rápido y a costos más bajos a pesar de la naturaleza hambrienta de computación de las cargas de trabajo de entrenamiento de IA. La pila de ingeniería conjunta de Azure, que incluye protocolos personalizados, bibliotecas colectivas y computación en red, garantiza que la red sea de una alta confiabilidad y que las aplicaciones la usen por completo. Funciones como NVIDIA SHARP aceleran las operaciones colectivas y duplican el ancho de banda efectivo al realizar cálculos matemáticos en el conmutador, lo que hace que el entrenamiento y la inferencia a gran escala sean más eficientes y confiables.

Los sistemas de refrigeración avanzados de Azure usan unidades de intercambiador de calor independientes y refrigeración de instalaciones para minimizar el uso de agua y, al mismo tiempo, mantener la estabilidad térmica para clústeres densos y de alto rendimiento, como GB300 NVL72. También continuamos con el desarrollo e implementación de nuevos modelos de distribución de energía capaces de admitir la alta densidad de energía y el equilibrio de carga dinámico requerido por la clase de VM ND GB300 v6 de clústeres de GPU.

Además, nuestras pilas de software rediseñadas para almacenamiento, orquestación y programación están optimizadas para utilizar por completo la infraestructura informática, de redes, de almacenamiento y de centros de datos a escala de supercomputación, lo que ofrece niveles de rendimiento sin precedentes con alta eficiencia a nuestros clientes.

Servidor tipo blade de un rack con NVIDIA GB300 NVL72 en la infraestructura de Azure AI.

Mirar hacia el futuro

Microsoft ha invertido en infraestructura de IA durante años, para permitir una rápida habilitación y transición a la tecnología más nueva. También es la razón por la que Azure está en una posición única para ofrecer infraestructura GB300 NVL72 a escala de producción a un ritmo rápido, para satisfacer las demandas de la IA de vanguardia en la actualidad.

A medida que Azure continúa con el aumento de las implementaciones de GB300 en todo el mundo, los clientes pueden esperar entrenar e implementar nuevos modelos en una fracción del tiempo en comparación con las generaciones anteriores. Las máquinas virtuales ND GB300 v6 están preparadas para convertirse en el nuevo estándar para la infraestructura de IA, y Azure se enorgullece de liderar el camino, para ayudar a los clientes a avanzar en el desarrollo de IA de vanguardia.

Estén atentos para obtener más actualizaciones y pruebas comparativas de rendimiento a medida que Azure expande la implementación de producción de NVIDIA GB300 NVL72 a nivel mundial.

Lean más de NVIDIA aquí.