Maia 200 : l’accélérateur d’IA conçu pour l’inférence  

Le nouvel accélérateur d’IA de Microsoft donne à Azure un avantage pour exécuter les modèles d’IA plus rapidement et à moindre coût.

Par Scott Guthrie, Executive Vice President – Cloud and AI

Aujourd’hui, nous sommes fiers de présenter Maia 200, un accélérateur d’inférence révolutionnaire conçu pour améliorer considérablement la rentabilité de la génération de jetons IA. Maia 200 est un véritable concentré de puissance en matière d’inférence IA : un accélérateur basé sur le processus 3 nm de TSMC avec des cœurs tensoriels FP8/FP4 natifs, un système de mémoire repensé avec 216 Go de HBM3e à 7 To/s et 272 Mo de SRAM sur puce, ainsi que des moteurs de transfert de données qui alimentent, accélèrent et optimisent l’utilisation des modèles volumineux. Cela fait de Maia 200 le silicium tiers le plus performant de tous les hyperscalers, avec des performances FP4 trois fois supérieures à celles de la troisième génération d’Amazon Trainium et des performances FP8 supérieures à celles de la septième génération de TPU de Google. Maia 200 est également le système d’inférence le plus efficace jamais déployé par Microsoft, avec des performances par dollar supérieures de 30 % à celles du matériel de dernière génération de notre parc actuel.

Maia 200 fait partie de notre infrastructure IA hétérogène et servira plusieurs modèles, y compris les derniers modèles GPT-5.2 d’OpenAI, apportant un avantage en termes de performances par dollar à Microsoft Foundry et Microsoft 365 Copilot. L’équipe Microsoft Superintelligence utilisera Maia 200 pour la génération de données synthétiques et l’apprentissage par renforcement afin d’améliorer les modèles internes de nouvelle génération. Pour les cas d’utilisation de pipelines de données synthétiques, la conception unique de Maia 200 permet d’accélérer la vitesse à laquelle des données de haute qualité et spécifiques à un domaine peuvent être générées et filtrées, alimentant ainsi la formation en aval avec des signaux plus récents et plus ciblés.

Maia 200 est déployé aujourd’hui dans notre région de centre de données US Central près de Des Moines, dans l’Iowa, et sera prochainement déployé dans la région de centre de données US West 3 près de Phoenix, en Arizona, puis dans d’autres régions. Maia 200 s’intègre de manière transparente à Azure, et nous proposons un aperçu du SDK Maia avec un ensemble complet d’outils permettant de créer et d’optimiser des modèles pour Maia 200. Il comprend un ensemble complet de fonctionnalités, notamment l’intégration de PyTorch, un compilateur Triton et une bibliothèque de noyaux optimisée, ainsi que l’accès au langage de programmation de bas niveau de Maia. Cela permet aux développeurs de bénéficier d’un contrôle précis lorsque cela est nécessaire, tout en facilitant le portage des modèles sur des accélérateurs matériels hétérogènes.

Conçu pour l’inférence IA

Fabriqué selon le processus de pointe 3 nanomètres de TSMC, chaque puce Maia 200 contient plus de 140 milliards de transistors et est adaptée aux charges de travail IA à grande échelle tout en offrant un rapport performance/prix efficace. Sur ces deux plans, Maia 200 est conçu pour exceller. Il est conçu pour les derniers modèles utilisant le low-precision compute, chaque puce Maia 200 offrant plus de 10 pétaFLOPS en précision 4 bits (FP4) et plus de 5 pétaFLOPS en 8 bits (FP8), le tout dans une enveloppe TDP SoC de 750 W. Concrètement, Maia 200 peut facilement faire tourner les plus grands modèles actuels, tout en offrant une marge suffisante pour des modèles encore plus grands à l’avenir.

Il est important de noter que les FLOPS ne sont pas le seul élément permettant d’accélérer l’IA. L’alimentation en données est tout aussi importante. Maia 200 s’attaque à ce goulot d’étranglement grâce à un sous-système de mémoire repensé. Le sous-système de mémoire Maia 200 est centré sur des types de données à faible précision, un moteur DMA spécialisé, une SRAM sur puce et une structure NoC spécialisée pour le transfert de données à haut débit, ce qui augmente le débit des jetons.

Des systèmes d’IA optimisés

Au niveau des systèmes, Maia 200 introduit une nouvelle conception de réseau évolutif à deux niveaux basés sur l’Ethernet standard. Une couche de transport personnalisée et une carte réseau étroitement intégrée offrent des performances, une grande fiabilité et des avantages financiers significatifs sans dépendre de structures propriétaires.

Chaque accélérateur offre :

  • 2,8 To/s de bande passante bidirectionnelle dédiée et évolutive
  • Des opérations collectives prévisibles et hautement performantes sur des clusters pouvant compter jusqu’à 6 144 accélérateurs

Cette architecture offre des performances évolutives pour les clusters d’inférence denses tout en réduisant la consommation d’énergie et le coût total de possession (TCO) global de la flotte mondiale d’Azure.

Au sein de chaque tray, quatre accélérateurs Maia sont entièrement connectés par des liaisons directes non commutées, ce qui permet de maintenir une communication à haut débit au niveau local pour une efficacité d’inférence optimale. Les mêmes protocoles de communication sont utilisés pour la mise en réseau intra-rack et inter-rack à l’aide du protocole de transport Maia AI, ce qui permet une évolutivité transparente entre les nœuds, les racks et les clusters d’accélérateurs avec un minimum de sauts réseau. Cette structure unifiée simplifie la programmation, améliore la flexibilité de la charge de travail et réduit la capacité inutilisée tout en maintenant des performances et une rentabilité constante à l’échelle du cloud.

Une approche de développement cloud-native

L’un des principes fondamentaux des programmes de développement de silicium de Microsoft consiste à valider autant que possible l’ensemble du système de bout en bout avant la mise à disposition finale du silicium.

Un environnement pré-silicium sophistiqué a guidé l’architecture Maia 200 dès ses premières étapes, en modélisant avec une grande fidélité les modèles de calcul et de communication des LLM. Cet environnement de co-développement précoce nous a permis d’optimiser le silicium, le réseau et les logiciels système comme un tout unifié, bien avant le premier silicium.

Nous avons également conçu Maia 200 pour une disponibilité rapide et transparente dans le centre de données dès le début, en mettant en place une validation précoce de certains des éléments les plus complexes du système, notamment le réseau backend et notre Heat Exchanger Unit (unité d’échange thermique) de deuxième génération à boucle fermée. L’intégration native avec le niveau de contrôle Azure offre des capacités de sécurité, de télémétrie, de diagnostic et de gestion tant au niveau des puces que des racks, maximisant ainsi la fiabilité et le temps de fonctionnement des charges de travail IA critiques pour la production. Grâce à ces investissements, les modèles d’IA ont pu fonctionner sur le silicium Maia 200 quelques jours seulement après l’arrivée des premiers composants. Le délai entre le premier silicium et le premier déploiement dans un rack de centre de données a été réduit de plus de moitié par rapport à des programmes d’infrastructure d’IA comparables. Cette approche de bout en bout, de la puce au logiciel en passant par le centre de données, se traduit directement par une utilisation accrue, un délai de production plus court et des améliorations durables en termes de performances par dollar et par watt à l’échelle du cloud.

Inscrivez-vous pour obtenir une préversion du SDK Maia

L’ère de l’IA à grande échelle ne fait que commencer, et ce sont les infrastructures qui détermineront ce qui est possible. Notre programme d’accélération Maia AI est conçu pour être multigénérationnel. Alors que nous déployons Maia 200 dans notre infrastructure mondiale, nous concevons déjà pour les générations futures et nous espérons que chaque génération établira continuellement de nouvelles références en matière de possibilités et offrira des performances et une efficacité toujours meilleure pour les charges de travail IA les plus importantes.

Aujourd’hui, nous invitons les développeurs, les start-ups spécialisées dans l’IA et les universitaires à commencer à explorer l’optimisation des premiers modèles et des charges de travail avec le nouveau kit de développement logiciel (SDK) Maia 200. Le SDK comprend un compilateur Triton, la prise en charge de PyTorch, la programmation bas niveau en NPL, ainsi qu’un simulateur Maia et un calculateur de coûts pour optimiser l’efficacité dès le début du cycle de vie du code. Inscrivez-vous ici pour obtenir un aperçu.

Retrouvez plus de visuels, vidéos et ressources sur notre site dédié à Maia 200.