Wie Microsoft mit Azure eine KI-Revolution auslöste

15. März 2023

Vor fünf Jahren stellten die KI-Forschenden von OpenAI eine kühne Idee bei Microsoft vor: Systeme für künstliche Intelligenz (KI) aufzubauen, die für immer verändern, wie Menschen mit Computern interagieren. Doch dafür wäre extrem viel Rechenleistung nötig. Würde Microsoft das liefern können?

Schon seit einigen Jahrzehnten hatte Microsoft an eigenen KI-Modellen gearbeitet, die Menschen dabei helfen sollten, effizienter mit Sprache zu arbeiten: vom automatischen Rechtschreibprüfer in Word bis zu KI-Tools, die Fotos in PowerPoint beschriften, oder Eingaben im Microsoft Translator in mehr als 100 Sprachen übersetzen.

Grafikprozessoren (GPUs) sind ein wichtiger Teil der Computerhardware, die für KI-Arbeitslasten optimiert wurde.

Als diese KI-Fähigkeiten immer besser wurden, setzte das Unternehmen sein Know-how im Bereich High-Performance-Computing (HPC) ein, um die Infrastruktur von Microsoft Azure auszubauen, die es Kunden ermöglicht, KI-Tools aus der Cloud zu nutzen, um damit ihre eigenen KI-Anwendungen zu erstellen, zu trainieren und zu bedienen.

Microsoft hatte gleich verstanden, welche Art von Supercomputing-Infrastruktur OpenAI brauchte – und wie riesig sie sein müsste. 2019 gingen Microsoft und OpenAI deshalb eine Partnerschaft ein, die in diesem Jahr erweitert wurde, um gemeinsam an neuen Supercomputing-Technologien zu arbeiten. Sie sollen die Durchbrüche im KI-Bereich beschleunigen, die Versprechen großer Sprachmodelle einlösen und dazu beitragen, dass die Vorteile der KI auf breiter Ebene genutzt werden können.

Beide Unternehmen starteten eine enge Zusammenarbeit für den Aufbau von Supercomputing-Ressourcen in Azure, die speziell dafür entwickelt wurden, dass OpenAI eine wachsende Anzahl von immer leistungsfähigeren KI-Modellen trainieren kann. Microsoft hat beispielsweise gerade neue leistungsstarke und massiv skalierbare virtuelle Maschinen für Azure angekündigt, welche die neuesten NVIDIA H100 Tensor Core GPUs und NVIDIA Quantum-2 InfiniBand-Netzwerke nutzen. Diese speziellen Grafikprozessoren (GPUs) dienen zum Training und zur Nutzung von KI-Modellen. Sie sollen die Grundlage für viele neue Fortschritte durch generative KI bei Microsoft und unseren Kunden bilden.

Training von KI-Modellen im großen Maßstab

Der Schlüssel zu diesen Durchbrüchen war das Erlernen des Aufbaus, der Betriebs und der Wartung von Zehntausenden zusammengeschalteten GPUs, die durch ein InfiniBand-Netzwerk verbunden sind, das höchsten Datendurchsatz und geringste Latenz ermöglicht. In diesem Umfang hatten das selbst die Lieferanten der Grafikprozessoren oder die Netzwerkausrüster noch nie getestet. „Und heute ist diese Azure-Infrastruktur, die für das Training großer Sprachmodelle optimiert ist, in unserer Cloud verfügbar“, sagt Eric Boyd, Corporate Vice President von Microsoft für die AI-Plattform.

Microsoft hatte sich schon früh in seiner Entwicklung einer Cloud-Computing-Infrastruktur, die für KI optimiert ist, auf Spezial-Hardware konzentriert, die Echtzeitberechnungen von KI-Modellen beschleunigt. Man nennt sie Inferenzmaschinen. Die Bereitstellung dieser KI-Funktionen für Kunden auf der ganzen Welt erfordert auch eine Infrastruktur, die für Inferencing optimiert ist.

Heute bietet Microsoft solche Inferencing-GPUs in seinen Azure-Rechenzentren an, die sich über mehr als 60 Regionen auf der ganzen Welt erstrecken. Unsere Kunden nutzen sie beispielsweise, um Chatbots anzubieten, die zur Terminvereinbarung im Gesundheitswesen dienen, oder um spezielle KI-Lösungen zu betreiben, mit denen Fluggesellschaften ihre Flugpläne einhalten können.

Azure-Rechenzentrum im US-Bundesstaat Washington.

Weil die KI-Modelle immer größer werden, benötigen sie heute Inferencing-GPUs, die genauso vernetzt sind wie für das Training dieser Modelle, damit sie ihre Aufgaben schnell und effizient erfüllen können. Deshalb hat Microsoft seine Fähigkeiten zum Clustern von GPUs mit InfiniBand-Vernetzung in den Azure-Rechenzentren weiter ausgebaut.

„Microsoft arbeitet kontinuierlich an der Entwicklung und Optimierung einer KI-Infrastruktur, die speziell für diesen Zweck aufgebaut wird“, erklärt Boyd. Diese KI-optimierte Infrastruktur ist mittlerweile Standard bei Azure. Sie umfasst ein Portfolio virtueller Maschinen sowie vernetzter Rechen- und Speicherressourcen, die speziell für KI-Workloads optimiert sind.

„Der Aufbau dieser Infrastruktur hat der KI-Fähigkeiten verschafft, die nun in Angeboten wie ChatGPT von OpenAI oder dem neuen Microsoft Bing zu sehen sind“, erklärt Scott Guthrie, Executive Vice President der Cloud and AI Group bei Microsoft.

„Nur Microsoft Azure bietet die benötigten GPUs, die InfiniBand-Netzwerke und die einzigartige KI-Infrastruktur an, um solche transformativen KI-Modelle in großem Maßstab zu entwickeln. Genau deshalb hat sich OpenAI für eine Partnerschaft mit Microsoft entschieden“, sagt Guthrie. „Azure ist der richtige Ort, um jetzt große transformative KI-Workloads zu entwickeln und auszuführen.“

Mehr Informationen über die KI-Revolution durch Azure finden Sie auf dem Source-Blog von Microsoft Corp.

Ein Beitrag von Markus Göbel
Senior Communications Manager Data Applications and Infrastructure

Wie Microsoft mit Azure eine KI-Revolution auslöste

Training von KI-Modellen im großen Maßstab

Weitere Infos zu diesem Thema