マイクロソフト、チップへのシステムアプローチで「シリコンからサービスまで」AI のニーズに対応
ジェイク シーゲル (Jake Siegel)
※本ブログは、米国時間 11 月 15 日に公開された“With in-house chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand”の抄訳を基に掲載しています。
マイクロソフトのレドモンドキャンパスには、デジタル時代の基本的な構成要素をテストするマシンでいっぱいの研究室がひっそりと存在します。その構成要素とはシリコンのことです。マイクロソフトのエンジニアが何年もかけて秘密裏に改良してきた方法で、複数のステップを経てシリコンが入念にテストされています。
本日、Microsoft Ignite において、マイクロソフトはこの取り組みから生まれた 2 つのカスタム設計チップと統合システムを発表しました。人工知能 (AI) のタスクと生成 AI 向けに最適化された Microsoft Azure Maia AI Accelerator、そして、Microsoft Cloud 上で汎用コンピューティングワークロードを実行するためにチューニングされた ARM ベースのプロセッサ Microsoft Azure Cobalt CPU です。
これらのチップは、マイクロソフトが、シリコンの選択肢、ソフトウェア、サーバー、ラック、冷却システムなどあらゆるものが含まれ、上位レイヤーから下位レイヤーまで社内とお客様のワークロードを考慮して最適化された設計がなされているインフラシステムを提供する上での、パズルの最後のピースです。
これらのチップは来年早々よりマイクロソフトのデータセンターで展開され、当初は Microsoft Copilot や Azure OpenAI Service といったサービスで使用される予定です。効率的でスケーラブルかつ持続可能なコンピューティングパワーに対する爆発的な需要増、そして、最新のクラウドや AI の技術革新の活用を熱望するお客様のニーズに応えるため、業界パートナーによる多様な製品群も加わっていきます。
マイクロソフトの Cloud + AI Group 担当エグゼクティブバイスプレジデント、スコット ガスリー (Scott Guthrie) は次のように述べています。「マイクロソフトは AI イノベーションをサポートするインフラを構築し、お客様のニーズを満たすためにデータセンターのあらゆる要素を再構築しています。マイクロソフトの事業規模では、インフラスタックの各階層を最適化し、統合してパフォーマンスを最大化し、サプライチェーンを多様化し、お客様にインフラの選択肢を提供することがきわめて重要です」
スタックのあらゆる階層を最適化
チップはクラウドの屋台骨です。データセンターを流れる膨大な 1 と 0 のストリームを処理する何十億個ものトランジスタを指揮します。この作業によって、電子メールの送信から単純なプロンプトによる Bing の画像生成まで、多様なことが画面上で実現できるようになります。
家を建てるときに設計の選択や細部までコントロールできるように、マイクロソフトは社内開発のチップを追加することで、すべての要素を Microsoft Cloud と AI ワークロードに合わせて最適化できると考えています。チップはカスタムのサーバーボードに搭載され、マイクロソフトの既存データセンター内に容易に収容できるよう、オーダーメイドのラック内に設置されます。ハードウェアは、共同設計されたソフトウェアと連動し、新しい機能と機会が引き出されます。
「最終目標は、最大限の柔軟性を提供し、電力、パフォーマンス、持続可能性、コストを最適化できる Azure ハードウェア・システムです」と Azure Hardware Systems and Infrastructure (AHSI) 担当コーポレートバイスプレジデント、ラニ ボーカー (Rani Borkar) は述べています。
「ソフトウェアがマイクロソフトの強みですが、率直に言えば、マイクロソフトはシステムの会社です。マイクロソフトでは、ハードウェアとソフトウェアを共同設計し、最適化することで、1+1 が 2 を上回るようにしています。マイクロソフトはスタック全体を可視化しており、シリコンはその要素の 1 つに過ぎません」とボーカーは述べています。
Microsoft Ignite では、これらの重要要素の 1 つである Azure Boost の一般提供開始も発表されました。Azure Boost は、処理をホストサーバーから専用のハードウェアとソフトウェアに移すことで、ストレージとネットワーキングを高速化するシステムです。
カスタムシリコンへの取り組みを補完するため、マイクロソフトは業界のパートナーシップを拡大し、お客様により多くのインフラストラクチャの選択肢を提供していくことも発表しました。マイクロソフトは、ミドルレンジの AI トレーニングと生成 AI 推論において、より高いパフォーマンス、信頼性、効率性を提供する、NVIDIA H100 Tensor コア GPU 向けに構築された NC H100 v5 Virtual Machine Series のプレビューを新たに提供開始しました。また、来年には、最新の NVIDIA H200 Tensor コア GPU を追加し、レイテンシを維持したままでより大規模なモデルの推論をサポートする予定です。
マイクロソフトは、Azure に AMD MI300X アクセラレーション VM を追加することも発表しました。ND MI300 VM は、ハイエンドの AI モデルのトレーニングや生成推論の AI ワークロードの処理を高速化するように設計されており、AMD の最新 GPU である AMD Instinct MI300X を搭載しています。
「業界パートナーが提供するチップやハードウェアの成長エコシステムに自社製シリコンを追加することで、マイクロソフトはより多くの価格と性能の選択肢をお客様に提供できるようになります」とボーカーは述べています。
「お客様第一主義とは、お客様にとって最善のものを提供することであり、それは、マイクロソフト自身が開発したものだけではなくエコシステムで利用可能なものも取り入れることを意味します。マイクロソフトは、すべてのパートナーと協力し続け、お客様が望むものをお届けしていきます。」とボーカーは述べています。
ハードウェアとソフトウェアの共同進化
マイクロソフトが新たに提供する Maia 100 AI Accelerator は、Microsoft Azure 上で実行される最大規模の社内 AI ワークロードの一部を稼働します。さらに、OpenAI は Azure Maia に関するフィードバックを提供しており、大規模言語モデル用にチューニングされたインフラストラクチャ上で実行される OpenAI のワークロードに関するマイクロソフトの深い洞察が、今後の設計作業に役立ちます。
OpenAI の CEO、サム アルトマン (Sam Altman) 氏は次のように述べています。「マイクロソフトと最初に提携して以来、私たちは、当社のモデルやこれまでにないトレーニングのニーズに合わせて、あらゆる階層で Azure の AI インフラを共同設計してきました。マイクロソフトが Maia チップの設計を初めて共有したとき、私たちは大いに期待を膨らませました。そして、当社のモデルを使って改良とテストを共に行ってきました。Azure のエンドツーエンドの AI アーキテクチャは、Maia によってシリコンまで最適化されることになり、より高性能なモデルをトレーニングし、そのモデルをお客様にとってより安価なものにする道が開かれました」
「また、Maia 100 AI Accelerator は、Azure ハードウェアスタック専用に設計されました。マイクロソフトのワークロードを念頭に置いて設計された大規模 AI インフラとチップ設計を整合させるという垂直統合の考え方は、性能と効率性において大きな利益をもたらします」と Maia 開発チームを統率するマイクロソフトのテクノロニカルフェローのブライアン ハリー (Brian Harry) は述べています。
「Azure Maia は、AI のため、そして、ハードウェアの最大限の活用を達成するために特別に設計されています」とハリーは述べています。
「これに対して、Cobalt 100 CPU は、エネルギー効率に優れたチップ設計の一種である ARM アーキテクチャで構築されており、クラウドネイティブオファリングでより高い効率とパフォーマンスを実現するために最適化されています」とハードウェア製品開発担当コーポレートバイスプレジデント、ウェス マッカロー (Wes McCullough) は述べています。ARM テクノロジの選択は、マイクロソフトのサステナビリティ目標を達成する上で重要な要素でした。このテクノロジは、データセンター全体で「ワットあたりのパフォーマンス」を最適化すること、すなわち、消費されるエネルギーに対するコンピューティングパワーを増強することを目指しています。
「このアーキテクチャと実装は、電力効率性を念頭に置いて設計されており、シリコン上のトランジスタを最も効率的に利用します。マイクロソフトのすべてのデータセンターのサーバーでこの効率性向上効果を実現できれば、かなり大きな数字になります」とマッカローは述べています。
チップからデータセンターに至るカスタムハードウェア
「2016 年以前は、マイクロソフトのクラウドのほとんどの階層では購入された既製の製品を使用していました」と AHSI チームのパートナープログラムマネージャー、パット ステーメン (Pat Stemen) は述べています。その後、マイクロソフトはサーバーとラックを自社でカスタム開発するようになり、コストを削減し、お客様により一貫した体験を提供できるようになりました。そして、シリコンチップ欠けている重要要素になりました。
独自のカスタムシリコンを構築できるようになったことで、マイクロソフトは特定の品質目標を設定し、最も重要なワークロードにチップを最適化できるようになりました。そのテストプロセスには、各チップが最高性能を発揮するために様々な周波数、温度、電力の条件下でどのように動作させるかを決定すること、そして、重要な点として、各チップを実際のマイクロソフトのデータセンターと同じ条件や構成でテストすることが含まれます。
本日発表されたシリコンアーキテクチャにより、マイクロソフトは冷却効率を高めるだけでなく、現在のデータセンター資産の利用を最適化し、既存のフットプリント内でサーバー容量を最大化することができるようになりました。
たとえば、Maia 100 サーバーボード特有の要件を満たすラックは存在しませんでした。そこで、マイクロソフトは一から構築することにしました。これらのラックは、マイクロソフトのデータセンターに通常設置されているものよりも幅広です。この拡張設計により、AI ワークロード独自の要件達成に不可欠な電源ケーブルとネットワークケーブルの両方に十分なスペースが確保されます。
このような AI タスクには、より多くの電力を消費する集中的な計算要求が伴います。従来の空冷方式では、このような高性能チップの冷却には不十分です。その結果、循環する流体を使用して熱を放散する液冷方式が、このような熱的課題に対して過熱を避けて効率的動作を保証する好ましいソリューションとして採用されました。
しかし、マイクロソフトの現在のデータセンターは大規模な液冷向けには設計されていません。そこで、Maia 100 のラックの横に置く「サイドキック (相棒)」を開発しました。このサイドキックは車のラジエーターのようなものです。サイドキックから Maia 100 チップの表面に取り付けられたコールドプレートに冷たい液体が流れます。各プレートには、熱を吸収し、移動するために液体を循環させる流路があります。その熱はサイドキックに流れ、サイドキックが液体から熱を奪ってラックに戻し、さらに熱を吸収させます。これが繰り返されます。
「ラックとサイドキックのタンデム設計は、インフラに対するシステムアプローチの価値を強調するものです」とマッカローは述べています。マイクロソフトは、Cobalt 100 チップの低消費電力設計思想やデータセンター冷却の複雑な設計まで、あらゆる局面をコントロールすることで、各構成要素間の調和の取れた相互作用を生み出すことができ、環境負荷の削減において、個別対策の総和よりも確実に大きな効果を得られるようにしています。
「マイクロソフトは、カスタムラックから得た設計上の学びを業界パートナーと共有しており、どのようなシリコンを搭載している場合でも活用可能にしています。インフラ、ソフトウェア、ファームウェアを問わず、マイクロソフトが構築したものはすべて、マイクロソフトのチップであろうと、業界パートナーのチップであろうと活用できます。これはお客様の選択であり、マイクロソフトは、性能であれ、コストであれ、お客様のその他の関心事であれ、お客様にとって最良の選択肢を提供しようとしているのです」とステーメンは述べています。
マイクロソフトは、将来的にこのオプションを拡大していく計画です。すでに、Azure Maia AI Accelerator シリーズと Azure Cobalt CPU シリーズの第 2 世代の設計を行っています。ステーメンによれば、ここでのマイクロソフトのミッションは明らかです。コアシリコンからエンドサービスまで、テクノロジスタックのあらゆる階層を最適化することです。
「このシリコンにおける取り組みにより、マイクロソフトのイノベーションは、性能、電力効率性、コストを優先しながら、Azure 上のお客様のワークロードの将来を保証するために、スタックのさらに下位へと進んでいます。お客様が現在そして将来にわたって Azure で最高の体験を得られるよう、マイクロソフトは、意図的にこのイノベーションを選択したのです」とステーメンは述べています。
関連情報:
Microsoft delivers purpose-built cloud infrastructure in the era of AI (Microsoft Azure は AI の時代に特化したクラウドインフラを提供)
Azure announces new AI optimized VM series featuring AMD’s flagship MI300X GPU (Azure、AMD のフラッグシップ GPU「MI300X」を搭載した AI 最適化 VM シリーズを発表)
Introducing Azure NC H100 v5 VMs for mid-range AI and HPC workloads (ミドルレンジ AI および HPC ワークロード向け Azure NC H100 v5 VM を発表)
トップ画像: ワシントン州クインシーのデータセンターにて、技術者が Microsoft Azure Cobalt 100 CPUs を含む最初のサーバーラックを設置する様子。これは、Microsoft Cloud のために設計された最初の CPU です。ジョン ブレッチャー (John Brecher) がマイクロソフトのために撮影
—
本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。