Como a aposta da Microsoft no Azure desencadeou uma revolução da IA

*Escrito por John Roach

Há cinco anos, a organização de pesquisa em inteligência artificial OpenAI apresentou à Microsoft uma ideia ousada de que poderia construir sistemas de IA que mudariam para sempre a forma como as pessoas interagem com os computadores. Na época, ninguém sabia que isso significaria sistemas de IA que criam imagens de tudo o que as pessoas descrevem em linguagem simples ou um chatbot para escrever letras de rap, redigir e-mails e planejar um menu para um jantar com base em um punhado de ideias. Mas uma tecnologia como essa era possível. Para construí-la, a OpenAI precisava de potência de computação – em uma escala verdadeiramente massiva. Será que a Microsoft poderia entregá-la?

Nas últimas décadas, a Microsoft vem dedicando seus próprios esforços para desenvolver modelos de Inteligência Artificial que ajudassem as pessoas a trabalhar com o idioma de maneira mais eficiente, seja utilizando o corretor ortográfico automático do Word, ou até ferramentas de IA que escrevem legendas de fotos no PowerPoint e traduzem conteúdos em mais de 100 idiomas no Microsoft Translator. À medida que esses recursos de IA foram aprimorados, a empresa aplicou sua experiência em computação de alto desempenho para expandir a infraestrutura em sua nuvem Microsoft Azure, permitindo que os clientes usassem suas ferramentas de IA para criar, treinar e atender a aplicativos de IA personalizados.

Então, os pesquisadores de IA começaram a usar unidades de processamento gráfico mais poderosas, conhecidas como GPUs, para lidar com cargas de trabalho de IA mais complexas, permitindo que eles pudessem vislumbrar o potencial de modelos de IA muito maiores que podiam entender anteriormente. Mas esses modelos maiores rapidamente ultrapassaram os limites dos recursos de computação existentes. Foi aí que a Microsoft entendeu que tipo de infraestrutura de supercomputação a OpenAI estava pedindo – e a escala que seria necessária.

“Uma das coisas que aprendemos lidando com modelos de larga escala é que quanto mais dados você tem e mais tempo para poder treinar a plataforma, melhor será a precisão do modelo”, disse Nidhi Chappell, chefe de produto da Microsoft para desempenho de alta performance do Azure e IA. “Portanto, houve definitivamente um forte impulso para obter modelos maiores treinados por um longo período de tempo, o que significa não apenas que você precisa ter a maior infraestrutura, mas também ser capaz de executá-la de forma confiável pelo tempo que for necessário.”

Em 2019, a Microsoft e a OpenAI firmaram uma parceria, que foi estendida este ano, para colaborar em novas tecnologias de supercomputação de IA no Azure que aceleram avanços em IA, cumprem a promessa de grandes modelos de linguagem e ajudam a garantir que os benefícios da IA sejam amplamente compartilhados.

As duas empresas começaram a trabalhar em estreita colaboração para criar recursos de supercomputação no Azure que foram projetados e dedicados para permitir que a OpenAI treine um conjunto crescente de modelos de IA cada vez mais poderosos. Essa infraestrutura incluía milhares de GPUs otimizadas para a IA da NVIDIA vinculadas, de alta produtividade e baixa latência, baseada nas comunicações NVIDIA Quantum InfiniBand para computação de alto desempenho.

A escala da infraestrutura de computação em nuvem que a OpenAI precisava para treinar seus modelos era sem precedentes – clusters exponencialmente maiores de GPUs em rede do que qualquer um no setor tentou construir, observou Phil Waymouth, diretor sênior da Microsoft encarregado de parcerias estratégicas que ajudou a negociar o lidar com OpenAI.

Nidhi Chappell, chefe de produto da Microsoft para computação de alto desempenho de Azure e IA (à esquerda), e Phil Waymouth, diretor sênior de parcerias estratégicas da Microsoft (à direita). Foto de Dan DeLong para Microsoft.

A decisão da Microsoft de fazer parceria com a OpenAI foi baseada na convicção de que essa escala de infraestrutura sem precedentes produziria resultados – novos recursos de IA, um novo tipo de plataforma de programação – que a Microsoft poderia transformar em produtos e serviços que oferecessem benefícios reais aos clientes, disse Waymouth. Essa convicção alimentou a ambição das empresas de superar quaisquer desafios técnicos para construí-lo e continuar a expandir os limites da supercomputação de IA.

“Essa mudança da pesquisa em larga escala que acontece em laboratórios para a industrialização da IA nos permitiu obter os resultados que começamos a ver hoje”, disse ele.

Isso inclui resultados de pesquisa no Bing que reúnem as férias dos sonhos, o chatbot no Viva Sales que rascunha e-mails de marketing, GitHub Copilot que extrai o contexto de códigos existentes para sugerir linhas adicionais aos desenvolvedores, removendo o trabalho penoso da programação de computadores, além do Azure OpenAI Service, que fornece acesso aos grandes modelos de linguagem do OpenAI com os recursos de nível empresarial do Azure.

“O co-projeto de supercomputadores com o Azure tem sido crucial para dimensionar nossas exigentes necessidades de treinamento de IA tornando nossa pesquisa e o trabalho de alinhamento em sistemas como o ChatGPT possível”, disse Greg Brockman, presidente e cofundador da OpenAI.

A Microsoft e seus parceiros continuam avançando nessa infraestrutura para atender à crescente demanda por modelos exponencialmente mais complexos e maiores.

Por exemplo, hoje a Microsoft anunciou novas máquinas virtuais poderosas e massivamente escaláveis que integram as mais recentes GPUs NVIDIA H100 Tensor Core e rede NVIDIA Quantum-2 InfiniBand. As máquinas virtuais são como a Microsoft oferece aos clientes uma infraestrutura que pode ser dimensionada para qualquer tarefa de IA. A nova máquina virtual ND H100 v5 do Azure fornece aos desenvolvedores de IA desempenho excepcional e dimensionamento em milhares de GPUs, de acordo com a Microsoft.

Treinamento de IA em grande escala

A chave para essas inovações, disse Chappell, foi aprender como construir, operar e manter literalmente dezenas de milhares de GPUs co-localizadas conectadas umas às outras em uma rede InfiniBand de alta produtividade e baixa latência. Essa escala, ela explicou, é maior do que os fornecedores de GPUs e equipamentos de rede já testaram. Era um território desconhecido. Ninguém sabia ao certo se o hardware poderia ser empurrado tão longe sem quebrar.

Unidades de processamento gráfico, conhecidas como GPUs, são peças-chave de hardware de computador otimizadas para cargas de trabalho de IA. Foto cortesia da Microsoft.

Para treinar um grande modelo de linguagem, ela explicou, a carga de trabalho de computação é baseada em milhares de GPUs em um cluster. Em certas fases dessa computação – chamadas allreduce – as GPUs trocam informações sobre o trabalho que realizaram. Uma rede InfiniBand acelera esta fase, que deve terminar antes que as GPUs possam iniciar a próxima parte da computação.

“Como esses trabalhos abrangem milhares de GPUs, você precisa garantir uma infraestrutura confiável e, em seguida, precisa ter a rede no back-end para poder se comunicar mais rapidamente e poder fazer isso por semanas a fio”, disse Chappell. “Isso não é algo que você apenas compra um monte de GPUs, conecta-as e elas começam a trabalhar juntas. Há muita otimização no nível do sistema para obter o melhor desempenho, e isso vem com muita experiência ao longo de muitas gerações.”

A otimização no nível do sistema inclui um software que permite a utilização efetiva das GPUs e equipamentos de rede. Nos últimos anos, a Microsoft desenvolveu técnicas que aumentaram a capacidade de treinar modelos com dezenas de trilhões de parâmetros, reduzindo simultaneamente os requisitos de recursos e o tempo para treiná-los e atendê-los na produção.

A Microsoft e seus parceiros também vêm adicionando capacidade incremental aos clusters de GPU, aumentando a rede InfiniBand e vendo até onde eles podem levar a infraestrutura de datacenter necessária para manter os clusters de GPU operando, incluindo sistemas de resfriamento, sistemas de fonte de alimentação ininterrupta e geradores de backup, observou Waymouth.

“A razão pela qual funcionou é porque estávamos construindo sistemas semelhantes para nossas equipes internas e há elementos complementares lá”, disse ele. “Mas a escala em que estávamos fazendo isso com a OpenAI era simplesmente muito maior, tanto internamente quanto com parceiros externos.”

Hoje, essa infraestrutura do Azure otimizada para treinamento de grandes modelos de linguagem está disponível por meio dos recursos de supercomputação do Azure AI na nuvem, disse Eric Boyd, vice-presidente corporativo da Microsoft para AI Platform. Este recurso fornece a combinação de GPUs, hardware de rede e software de virtualização necessários para fornecer a computação que alimenta a próxima onda de inovação de IA.

“Vimos que precisaríamos construir clusters de finalidade especial com foco em permitir grandes cargas de trabalho de treinamento, e o OpenAI foi uma das primeiras provas disso”, disse Boyd. “Trabalhamos em estreita colaboração com eles para saber quais são as principais coisas que procuravam ao construir seus ambientes de treinamento. Agora, quando outras pessoas vêm até nós e querem o mesmo estilo de infraestrutura, podemos dar a elas porque essa é a forma padrão que fazemos”, acrescentou.

IA para todos

No início do desenvolvimento da infraestrutura de computação em nuvem otimizada para IA da Microsoft, a empresa se concentrou em um hardware especializado para acelerar os cálculos em tempo real que os modelos de IA fazem quando são implantados para conclusão de tarefas, o que é conhecido como inferência. Hoje, a inferência é quando um modelo de IA escreve o primeiro rascunho de um e-mail, resume um documento legal, sugere o menu para um jantar, ajuda um programador de software a encontrar um código ou esboça um conceito para um novo brinquedo.

Trazer esses recursos de IA para clientes em todo o mundo requer uma infraestrutura de IA otimizada para inferência. Hoje, a Microsoft implantou GPUs para inferência em todo o datacenter Azure da empresa, que abrange mais de 60 regiões em todo o mundo. Essa é a infraestrutura que os clientes usam, por exemplo, para alimentar chatbots personalizados para agendar consultas de saúde e executar soluções personalizadas de IA que ajudam a manter as companhias aéreas dentro do cronograma.

A Microsoft implantou GPUs para inferência em todo o datacenter global do Azure da empresa, incluindo este no estado de Washington. Foto cortesia da Microsoft.

À medida que o tamanho dos modelos de IA treinados aumentam, a inferência exigirá GPUs conectadas em rede da mesma forma que são para o treinamento de modelos, a fim de fornecer conclusão de tarefas rápida e econômica, de acordo com Chappell. É por isso que a Microsoft vem aumentando a capacidade de agrupar GPUs com rede InfiniBand em todo o datacenter do Azure.

“Como as GPUs estão conectadas em uma rede mais rápida, você pode encaixar modelos maiores nelas”, explicou ela. “E como o modelo se comunica mais rapidamente consigo mesmo, você poderá fazer a mesma quantidade de computação em menos tempo, por isso é mais barato. Do ponto de vista do cliente final, trata-se de quão barato podemos servir a inferência.”

Para ajudar a acelerar a inferência, a Microsoft investiu na otimização de sistemas com o Open Neural Network Exchange Runtime, ou ONNX Runtime, um mecanismo de inferência de código aberto que incorpora técnicas avançadas de otimização para fornecer inferências até 17 vezes mais rápidas. Hoje, o ONNX Runtime executa mais de um trilhão de inferências por dia e permite muitos dos mais onipresentes serviços digitais alimentados por IA.

Equipes de clientes da Microsoft e do Azure em todo o mundo também estão usando essa infraestrutura global para ajustar os grandes modelos de IA para casos de uso específicos, desde chatbots mais úteis até legendas de geração automática mais precisas. A capacidade exclusiva da infraestrutura otimizada de IA do Azure de aumentar e diminuir a escala torna-a ideal para muitas das cargas de trabalho de IA atuais, desde o treinamento de modelo de IA até a inferência, de acordo com Boyd.

“Fizemos o trabalho para realmente entender como é oferecer esses serviços em escala”, disse ele.

Continuando a inovar

A Microsoft continua inovando no design e otimização da infraestrutura criada especificamente para a IA, acrescentou Boyd. Isso inclui trabalhar com fornecedores de hardware de computador e fabricantes de equipamentos de datacenter para construir a partir do zero uma infraestrutura de computação em nuvem que forneça o mais alto desempenho, a maior escala e a solução mais econômica possível.

“Receber as primeiras lições de feedback das pessoas que estão avançando e estão na vanguarda disso nos dá muitos insights e uma vantagem inicial sobre o que será necessário à medida que essa infraestrutura avança”, disse ele.

Essa infraestrutura otimizada para IA agora é padrão em toda a malha de computação em nuvem do Azure, que inclui um portfólio de máquinas virtuais, computação conectada e recursos de armazenamento otimizados para cargas de trabalho de IA.

A construção dessa infraestrutura desbloqueou os recursos de IA vistos em ofertas como o ChatGPT da OpenAI e o novo Microsoft Bing, de acordo com Scott Guthrie, vice-presidente executivo do grupo de nuvem e IA da Microsoft.

“Apenas o Microsoft Azure fornece as GPUs, a rede InfiniBand e a infraestrutura de IA exclusiva necessária para criar esses tipos de modelos transformacionais de IA em escala, e é por isso que a OpenAI escolheu fazer parceria com a Microsoft”, disse ele. “O Azure é realmente o lugar para desenvolver e executar grandes cargas de trabalho de IA transformacional.”

Como a aposta da Microsoft no Azure desencadeou uma revolução da IA

Posts Relacionados