Microsoft anuncia novo supercomputador e apresenta visão para futuros trabalhos de IA

Por Jennifer Langston

A Microsoft criou um dos cinco principais supercomputadores divulgados publicamente no mundo, disponibilizando nova infraestrutura no Azure para treinar modelos de inteligência artificial extremamente grandes – o anúncio foi feito na Build developers.

Criado em colaboração com e exclusivamente para a OpenAI, o supercomputador hospedado no Azure foi projetado especificamente para treinar os modelos de IA da empresa. Ele representa um marco importante em uma parceria anunciada no ano passado para criar conjuntamente novas tecnologias de supercomputação no Azure.

É também um primeiro passo para tornar a próxima geração de modelos de IA muito grandes e a infraestrutura necessária para treiná-los disponíveis como uma plataforma para outras organizações e desenvolvedores aproveitarem.

“O interessante sobre esses modelos é a amplitude de coisas que eles permitirão”, diz o diretor técnico da Microsoft, Kevin Scott, além de afirmar que os benefícios potenciais vão muito além de avanços restritos em um tipo de modelo de IA.

“Trata-se de ser capaz de fazer centenas de coisas interessantes no processamento de linguagem natural de uma só vez e outras centenas em visão computacional, e quando você começar a ver combinações desses domínios perceptivos, terá novos aplicativos difíceis imaginar até agora”, disse.

Os modelos de IA em larga escala estão começando a aprender de novas maneiras em textos, imagens e vídeos. Arte de Craighton Berman.

Uma nova classe de modelos multitarefa de IA

Os especialistas em aprendizado de máquina construíram historicamente modelos de IA menores e separados que usam muitos exemplos rotulados para aprender uma única tarefa, como traduzir idiomas, reconhecer objetos, ler texto para identificar pontos-chave em um email ou reconhecer a fala suficientemente bem para fornecer o boletim meteorológico do dia quando perguntado.

Uma nova classe de modelos desenvolvidos pela comunidade de pesquisa em IA provou que algumas dessas tarefas podem ser realizadas melhor por um único modelo massivo – um que aprende ao examinar bilhões de páginas de texto publicamente disponível, por exemplo. Esse tipo de modelo pode absorver tão profundamente as nuances da linguagem, gramática, conhecimento, conceitos e contexto que pode se sobressair em várias tarefas como resumir um discurso longo, moderar o conteúdo em bate-papos ao vivo, encontrar frases relevantes em milhares de arquivos legais ou mesmo gerar código a partir do GitHub.

Como parte de uma iniciativa de AI at Scale em toda a empresa, a Microsoft desenvolveu sua própria família de grandes modelos de IA, os modelos Microsoft Turing, que foram usados para melhorar diversas tarefas de compreensão de diferentes idiomas no Bing, Office, Dynamics e outros serviços de produtividade. No início deste ano, também disponibilizamos aos pesquisadores o maior modelo de linguagem de IA disponível ao público no mundo, o modelo Microsoft Turing para geração de linguagem natural.

O objetivo, diz a Microsoft, é disponibilizar seus grandes modelos de IA, ferramentas de otimização de treinamento e recursos de supercomputação por meio dos serviços de AI do Azure e do GitHub, para que desenvolvedores, cientistas de dados e clientes comerciais possam aproveitar facilmente o poder da AI at Scale.

“Até agora, a maioria das pessoas entende intuitivamente como os computadores pessoais são uma plataforma – você o compra e não é como se tudo que ele fosse fazer estivesse embutido no dispositivo quando você o tirasse da caixa”, diz Scott.

“É exatamente isso que queremos dizer quando afirmamos que a IA está se tornando uma plataforma”, comenta. “Trata-se de pegar um conjunto muito amplo de dados e treinar um modelo que aprende a fazer um uma série de coisas e disponibilizar esse modelo para milhões de desenvolvedores descobrirem como desenvolver algo interessante e criativo”.

O treinamento de modelos massivos de IA exige infraestrutura avançada de supercomputação ou agrupamentos de hardware de ponta conectados por redes banda larga. Ele também precisa de ferramentas para treinar os modelos nesses computadores interconectados.

O supercomputador desenvolvido para OpenAI é um sistema único com mais de 285.000 núcleos de CPU, 10.000 GPUs e 400 gigabits por segundo de conectividade de rede para cada servidor GPU. Comparado com outras máquinas listadas nos TOP500 supercomputadores do mundo, ele está entre os cinco primeiros, diz a Microsoft. Hospedado no Azure, o supercomputador também se beneficia de todos os recursos de uma infraestrutura de nuvem moderna e robusta, incluindo implantação rápida, datacenters sustentáveis e acesso aos serviços do Azure.

“Trata-se de ser capaz de fazer uma centena de coisas empolgantes no processamento de linguagem natural de uma só vez, além de desenvolver diversas outras com visão computacional. Quando você começar a ver as combinações desses domínios perceptivos, terá novos aplicativos que eram difíceis de até imagine agora”

“À medida que aprendemos cada vez mais sobre o que precisamos e os diferentes limites de todos os componentes que compõem um supercomputador, fomos capazes de nos perguntar: ‘Se pudéssemos projetar nosso sistema de sonhos, como seria?’” diz o CEO da OpenAI, Sam Altman. “E então a Microsoft conseguiu construí-lo.”

“O objetivo da OpenAI não é apenas buscar avanços na pesquisa, mas também projetar e desenvolver tecnologias poderosas de IA que outras pessoas possam usar”, diz Altman. O supercomputador desenvolvido em parceria com a Microsoft foi projetado para acelerar esse ciclo.

“Estamos vendo que sistemas de larga escala são um componente importante no treinamento de modelos mais poderosos”, afirma Altman.

Para clientes que desejam promover suas ambições de IA, mas que não precisam de um supercomputador dedicado, a Azure AI fornece acesso à computação poderosa com o mesmo conjunto de aceleradores e redes de IA que também alimentam o supercomputador. A Microsoft também está disponibilizando as ferramentas para treinar grandes modelos de IA nesses nichos de maneira distribuída e otimizada.

Na Build, a Microsoft anunciou que em breve iniciaria o código aberto de seus modelos Microsoft Turing, além de receitas para treiná-los no Azure Machine Learning. Isso dará aos desenvolvedores acesso à mesma família de poderosos modelos de linguagem que a empresa usou para melhorar o entendimento do idioma em seus produtos.

A companhia também revelou uma nova versão do DeepSpeed, uma biblioteca de aprendizado profundo de código aberto do PyTorch que reduz a quantidade de poder de computação necessária para o treinamento de modelos distribuídos de grande porte. A atualização é significativamente mais eficiente que a versão lançada há apenas três meses e agora permite que as pessoas treinem modelos 15 vezes maiores e 10 vezes mais rapidamente do que poderiam sem o DeepSpeed na mesma infraestrutura.

Juntamente com o anúncio do DeepSpeed, a Microsoft anunciou que adicionou suporte para treinamento distribuído ao ONNX Runtime – uma biblioteca de código aberto projetada para permitir que os modelos sejam portáteis em hardware e sistemas operacionais. Até a presente data, o ONNX Runtime se concentrou na dedução de alto desempenho. A atualização de hoje adiciona suporte ao treinamento de modelos, além de otimizações da biblioteca DeepSpeed, que permitem melhorias de desempenho de até 17 vezes em relação ao ONNX Runtime atual.

“Queremos ser capazes de construir essas tecnologias avançadas de IA que, em última análise, podem ser facilmente usadas pelas pessoas para ajudá-las a realizar seu trabalho e atingir seus objetivos mais rapidamente”, diz o gerente principal de programa da Microsoft, Phil Waymouth. “Esses grandes modelos serão um enorme acelerador”.

No aprendizado “auto supervisionado”, os modelos de IA podem aprender com grandes quantidades de dados não rotulados. Por exemplo, os modelos podem aprender nuances profundas da linguagem, absorvendo grandes volumes de texto e prevendo palavras e frases ausentes. Arte de Craighton Berman.

Aprendendo as nuances da linguagem

A criação de modelos de IA que possam um dia entender o mundo mais parecido como as pessoas começa com a linguagem, um componente crítico para entender as intenções humanas, entender a vasta quantidade de conhecimento escrito no mundo e se comunicar com mais facilidade.

Os modelos de redes neurais que podem processar a linguagem, que são basicamente inspirados por nossa compreensão do cérebro humano, não são novos. Mas esses modelos de aprendizado profundo agora são muito mais sofisticados que as versões anteriores e estão aumentando rapidamente escalando em tamanho.

Há um ano, os maiores modelos possuíam 1 bilhão de parâmetros, cada um equivalente a uma conexão sináptica no cérebro. O modelo Microsoft Turing para geração de linguagem natural agora está no maior modelo de IA de linguagem disponível publicamente do mundo, com 17 bilhões de parâmetros.

Essa nova classe de modelos aprende de maneira diferente dos modelos de aprendizado supervisionado, que dependem de dados gerados por seres humanos, meticulosamente rotulados, para ensinar um sistema de IA a reconhecer um gato ou determinar se a resposta a uma pergunta faz sentido.

No que é conhecido como aprendizado “auto supervisionado”, esses modelos de IA podem aprender sobre o idioma examinando bilhões de páginas de documentos disponíveis publicamente na internet – textos da Wikipedia, livros auto publicados, manuais de instruções, lições de história, diretrizes de recursos humanos. Em algo parecido com o jogo gigante de Mad Libs, as palavras ou frases são removidas, e o modelo precisa prever as peças que faltam com base nas palavras ao seu redor.

Como o modelo faz isso bilhões de vezes, fica muito bom perceber como as palavras se relacionam. Isso resulta em um rico entendimento de gramática, conceitos, contexto e outros elementos básicos da linguagem. Ele também permite que o mesmo modelo transfira as lições aprendidas em tarefas de idiomas diferentes, do entendimento de documentos a respostas a perguntas, até a criação de bots de conversação.

“Isso permitiu coisas aparentemente impossíveis em modelos menores”, diz Luis Vargas, consultor técnico de parceiros da Microsoft que lidera a iniciativa AI at Scale da empresa.

As melhorias são como saltar de um nível básico de leitura para um entendimento mais sofisticado e detalhado da linguagem. Mas é possível melhorar ainda mais a precisão ajustando esses grandes modelos de IA em uma tarefa de linguagem mais específica ou expondo-os a materiais específicos para um setor ou empresa em particular.

“Já que toda organização terá seu próprio vocabulário, as pessoas agora podem ajustar facilmente esse modelo para obter um diploma de pós-graduação na compreensão de negócios, saúde ou domínios legais”, diz ele.

AI at Scale

Uma vantagem para a próxima geração de grandes modelos de IA é que eles só precisam ser treinados uma vez com grandes quantidades de dados e recursos de supercomputação. Uma empresa pode adotar um modelo “pré-treinado” e simplesmente ajustar tarefas diferentes com conjuntos de dados e recursos muito menores.

O modelo Microsoft Turing para compreensão de linguagem natural, por exemplo, foi usado em toda a empresa para melhorar uma ampla gama de ofertas de produtividade no último ano. Ele avançou significativamente na geração de legendas e na resposta a perguntas no Bing, aprimorando respostas os questionamentos na pesquisa em alguns mercados em até 125%.

No Office, o mesmo modelo promoveu avanços no recurso de localização inteligente, permitindo pesquisas mais fáceis no Word, o recurso Key Insights que extrai sentenças importantes para localizar rapidamente pontos-chave no Word e no recurso Respostas sugeridas do Outlook, que gera automaticamente possíveis respostas a um e-mail. O Dynamics 365 Sales Insights também o usa para sugerir ações a um vendedor com base nas interações com os clientes.

A Microsoft também está explorando modelos de IA em larga escala que podem aprender de maneira generalizada por texto, imagens e vídeo. Isso poderia ajudar na legenda automática de imagens para acessibilidade no Office, por exemplo, ou melhorar a maneira como as pessoas pesquisam no Bing, entendendo o que há dentro de imagens e vídeos.

Para treinar seus modelos, a Microsoft teve que desenvolver seu próprio conjunto de técnicas e ferramentas de otimização, muitas das quais estão agora disponíveis na biblioteca DeepSpeed PyTorch e no ONNX Runtime. Isso permite que as pessoas treinem modelos grandes de IA em muitos clusters de computação e absorver o poder de computação do hardware.

Isso requer a divisão de um grande modelo de IA em suas muitas camadas e a distribuição dessas camadas por diferentes máquinas, um processo chamado paralelismo de modelo. No processo chamado paralelismo de dados, as ferramentas de otimização da Microsoft também dividem a enorme quantidade de dados de treinamento em lotes que são usados para treinar várias instâncias do modelo no cluster, que são calculadas periodicamente para produzir um único modelo.

As eficiências que os pesquisadores e engenheiros da Microsoft obtiveram nesse tipo de treinamento distribuído tornarão o uso de modelos de IA em larga escala muito mais eficientes em termos de recursos e com melhor custo-benefício para todos, diz a Microsoft.

Quando você está desenvolvendo uma plataforma em nuvem para uso geral, diz Scott, é fundamental ter projetos como a parceria de supercomputação OpenAI e a iniciativa AI at Scale promovendo a vanguarda do desempenho.

Ele o compara à indústria automotiva, desenvolvendo inovações de alta tecnologia para carros de corrida de Fórmula 1, que acabam encontrando os sedãs e utilitários esportivos que as pessoas dirigem todos os dias.

“Ao desenvolver essa infraestrutura de ponta para o treinamento de grandes modelos de IA, estamos aprimorando todo o Azure”, afirma Scott. “Estamos construindo melhores computadores, sistemas distribuídos, melhores redes e datacenters. Tudo isso aprimora o desempenho, custo e a flexibilidade de toda a nuvem do Azure”

Imagem superior: Na conferência Build para desenvolvedores, o diretor técnico da Microsoft, Kevin Scott, anunciou que a empresa construiu um dos cinco principais supercomputadores divulgados publicamente no mundo. Arte de Craighton Berman.

Microsoft anuncia novo supercomputador e apresenta visão para futuros trabalhos de IA

Posts Relacionados