Maia 200: 推論に特化した AI アクセラレーター 

Maia200-Hero picture

著者 スコット ガスリー 、Cloud + A エグゼクティブ バイス プレジデント

※本ブログは、米国時間 2026 年 1 月 26 日に公開された ” Maia 200: The AI accelerator built for inference – The Official Microsoft Blog ” の抄訳を基に掲載しています。  

本日、AI トークン生成のコスト効率を飛躍的に向上する画期的な推論アクセラレータ「Maia 200」を発表します。Maia 200 は AI 推論で圧倒的な性能を発揮します。TSMC の 3nm プロセス上に構築され、ネイティブの FP8/FP4 テンソルコアを搭載しました。さらに 7 TB/s の帯域幅を持つ 216 GB の HBM3e メモリ、272 MB のオンチップ SRAM を備えた新しいメモリシステム、そして大規模モデルに高速かつ効率的にデータを供給するエンジンが組み込まれています。その結果、Maia 200 はあらゆるハイパースケーラーが提供するシリコンの中で最高性能を実現しました。Amazon Trainium 第 3 世代の FP4 性能の 3 倍、Google の第 7 世代 TPU を超える FP8 性能を発揮します。また、Maia 200 はマイクロソフトが導入した推論システムとして最高の効率を誇り、現在の最新世代ハードウェアに比べ 1 ドルあたりの性能が 30% 向上しました。 

Maia 200 はマイクロソフトのヘテロジニアス(異種混在型)な AI インフラの一部で、OpenAI の最新 GPT-5.2 を含む複数のモデルをサポートします。Microsoft Foundry と Microsoft 365 Copilot に高いコストパフォーマンスをもたらします。Microsoft Superintelligence チームは Maia 200 を使って合成データ生成と強化学習を行い、次世代社内モデルを改良します。合成データ パイプライン用途では、Maia 200 の独自設計が高品質でドメイン固有のデータ生成とフィルタリングを加速し、下流トレーニングに新鮮で的確な信号を供給します。 

Maia 200 はアイオワ州デモイン近郊の米国中部データセンター リージョンに展開済みで、次はアリゾナ州フェニックス近郊の米国西部 3 データセンター リージョン、その後も複数リージョンでの展開を予定しています。Maia 200 は Azure とシームレスに統合され、モデル構築および最適化用の完全なツールセットを備えた Maia SDK をプレビュー提供中です。SDK には PyTorch との統合、Triton コンパイラと最適化カーネルライブラリ、Maia の低水準言語へのアクセスが含まれます。開発者は必要に応じた細かな制御が可能で、異種ハードウェア アクセラレータ間のモデル移植も容易です。 

AI 推論に最適化された設計 

TSMC の最先端 3 ナノメートルプロセスで製造された Maia 200 チップは 1,400 億個超のトランジスタを搭載し、大規模 AI ワークロードに最適化されたコスト効率の高いパフォーマンスを実現します。Maia 200 は性能とコスト効率の両面で卓越しています。少ないビット数での計算を活用する最新モデル向けに設計され、4 ビット精度 (FP4) で 10 ペタ FLOPS 超、8 ビット精度 (FP8) で 5 ペタ FLOPS 超の性能を、いずれも 750W の SoC TDP 内で提供します。実用面では、Maia 200 は現在最大規模のモデルを実行でき、将来のさらに大きなモデルに対応する余力も備えています。 

Maia200 Chip image

AI の高速化には FLOPS(浮動小数点演算性能)だけでは不十分で、データの供給方法も同様に重要です。Maia 200 はこのボトルネックに対し、再設計されたメモリ サブシステムで対処します。メモリ サブシステムは低精度データ型、専用 DMA エンジン、オンダイ SRAM、高帯域幅データ転送用の専用 NoC ファブリックを中心に構成され、トークン スループットを向上させます。 

infographic-of-Industry-Leading-capability.

最適化された AI システム 

システムレベルでは、Maia 200 は標準 Ethernet 基盤の新しい 2 層スケールアップ ネットワーク設計を導入しており、カスタム トランスポート層と緊密に統合された NIC が、専用ファブリックなしで高性能、強固な信頼性、大幅なコスト優位性を実現します。 

– 双方向専用スケールアップ帯域幅 2.8 TB/s 

– 最大 6,144 基のアクセラレーターのクラスター全体で予測可能な高性能集団演算 

このアーキテクチャは密集推論クラスターにスケーラブルな性能を提供し、Azure グローバルフリート全体で消費電力と総所有コストを削減します。 

各トレイ内では、4 つの Maiaアクセラレーターが直接接続され、スイッチを介さない直接リンクで高帯域幅通信をローカルに保ち、推論効率を最適化します。同じ通信プロトコルが Maia AI トランスポート プロトコルを使用してラック内およびラック間ネットワーキングにも適用され、アクセラレーターのノード、ラック、クラスター全体でネットワークホップを最小化しながらシームレスにスケールします。この統一ファブリックはプログラミングを簡素化し、ワークロードの柔軟性を向上させ、遊休キャパシティを削減し、クラウド規模で一貫したパフォーマンスとコスト効率を維持します。 

Picture-of-server-blade

クラウドネイティブな開発手法 

マイクロソフトのシリコン開発プログラムでは、最終的なシリコンが完成する前に、システム全体をできる限り検証することを基本原則としています。 

高度なプレシリコン環境により、Maia 200 アーキテクチャは初期段階から設計を進めることができました。この環境では大規模言語モデル (LLM) の計算、通信パターンを高精度でモデル化し、シリコン、ネットワーキング、システムソフトウェアを一体として最適化できました。こうして、初期シリコン完成のはるか前に統合設計を実現しました。 

Maia 200 は設計段階からデータセンターでの迅速でスムーズな利用を想定しています。バックエンドネットワークや第 2 世代密閉型液冷ヒートエクスチェンジャーユニットなど、最も複雑なシステム要素の早期検証を実施しました。Azure コントロールプレーンとネイティブに統合することで、チップからラック レベルまでセキュリティ、テレメトリ、診断、管理機能を提供し、本番環境で重要な AI ワークロードの信頼性と稼働時間を最大化します。 

これらの投資により、AI モデルは最初のパッケージ部品到着から数日以内に Maia 200 シリコン上で稼働しました。初回のシリコンからデータセンターラック展開までの時間は、同等の AI インフラ プログラムと比較して半減しました。チップからソフトウェア、データセンターまでのこのエンドツーエンド アプローチにより、クラウド規模での利用率向上、本番稼働までの時間短縮、そして 1 ドルあたり、1 ワットあたりの性能の持続的向上に直結します。 

Maia200_Rack_Cooling-scaled

Maia SDK のプレビュー版に登録しよう 

大規模 AI の時代は始まったばかりで、その可能性はインフラに大きく依存します。Maia AI アクセラレータープログラムは複数世代にわたる設計となっています。Maia 200 をグローバルインフラに展開しつつ、すでに次世代設計に着手しており、世代を重ねるごとに性能と効率を向上させ、最重要の AI ワークロードを支えていきます 。

本日、開発者、AI スタートアップ、研究者の皆様に、新しい Maia 200 ソフトウェア開発キット (SDK) による初期モデルとワークロード最適化の機会を提供します。この SDK には Triton コンパイラ、PyTorch のサポート、NPL による低水準言語でのプログラミング、さらにコード ライフサイクルの早期段階で効率化を図るための Maia シミュレーターとコスト計算ツールが含まれます。プレビュー登録はこちらから。 

Maia 200 の写真、動画、その他のリソースと詳細情報専用サイトで確認できます。 

———————————  

スコット ガスリー (Scott Guthrie) は、マイクロソフトのクラウド コンピューティング プラットフォーム Azure をはじめ、生成 AI ソリューション、データ プラットフォーム、情報・サイバーセキュリティなど、ハイパースケールのクラウド コンピューティング ソリューションとサービスを統括しています。これらのプラットフォームとサービスは、世界中の組織が重要な課題を解決し、長期変革の推進を支援します。 

———————————  

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由、背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。