Do Hot Wheels à produção de conteúdo: como as marcas estão usando a IA da Microsoft para serem mais produtivas e criativas  

Por John Roach

 

Quando recentemente solicitaram para os designers da empresa de brinquedos Mattel para que criassem um novo modelo do carro Hot Wheels, eles buscaram inspiração no DALL∙E 2, um sistema de IA desenvolvido pela OpenAI que cria imagens e arte personalizadas com base no que as pessoas descrevem em linguagem simples.  

Usando a ferramenta, os designers podem digitar um prompt, como “Um modelo de ajuste de escala de um carro clássico”, e o DALL∙E 2 irá gerar uma imagem de um carro vintage de brinquedo, talvez prateado e com pneus de lateral branca.    

Na sequência, o designer pode apagar a parte de cima do carro e depois digitar “Transformar em conversível”, e o DALL∙E 2 irá atualizar a imagem do carro como um conversível. O designer pode continuar ajustando o design, pedindo ao DALL∙E 2 para testar em cor rosa ou azul, com o conversível ligado, e assim por diante.   

O DALL∙E 2 está chegando ao Microsoft Serviço OpenAI do Azure, por convite, permitindo que clientes selecionados de IA do Azure gerem imagens personalizadas usando texto ou imagens. O anúncio foi feito hoje no Microsoft Ignite, uma conferência para desenvolvedores e profissionais de TI.   

A disponibilidade do DALL∙E 2 por meio do Serviço OpenAI do Azure oferece a clientes como a Mattel uma infraestrutura de IA em nuvem que combina a inovação de ponta da geração de texto para imagem com a conformidade, as proteções de IA responsáveis e as certificações que o Azure oferece, segundo a Microsoft.  

Os designers da Mattel puderam gerar dezenas de imagens, cada iteração gerando e refinando ideias que poderiam ajudar a projetar uma renderização final bem definida de um novo carro modelo Hot Wheels.    

“É sobre dizer: ‘Ah, eu não tinha pensado nisso!’”, disse Carrie Buse, diretora de design de produtos da Mattel Future Lab em El Segundo, Califórnia. Ela vê a tecnologia de IA como uma ferramenta para ajudar os designers a gerar mais ideias. “No final das contas, qualidade é o mais importante”, observou. “Mas, às vezes, a quantidade pode ajudar você a encontrar a qualidade.”   

A Microsoft também está integrando o DALL∙E 2 em seus aplicativos e serviços de consumo, começando com o recém-anunciado aplicativo Microsoft Designer, e em breve será integrado ao Image Creator no Microsoft Bing.  

A distribuição do DALL∙E 2 em todos os produtos e serviços da Microsoft é um reflexo de como a empresa está investindo em pesquisa de IA e está infundindo IA em tudo o que ela constrói, produz e oferece para ajudar todos a aumentar a produtividade e a inovação.   

A tendência é que o resultado de avanços não lineares em funcionalidade de IA alcançados ao trazer mais computação para mais dados para treinar modelos mais avançados e poderosos, de acordo com Eric Boyd, vice-presidente corporativo da Microsoft, Plataforma de IA.  

“O poder dos modelos ultrapassou esse limiar de qualidade e agora eles são úteis em mais aplicativos”, disse ele. “A outra tendência que estamos vendo é que todos os desenvolvedores de produtos estão pensando e entendendo as maneiras como eles podem usar a IA em seus produtos para o uso fácil e para dizer: ‘Ah, posso fazer meu produto funcionar melhor se eu usar IA.’”   

O DALL∙E 2 foi treinado em um supercomputador hospedado no Azure que a Microsoft construiu exclusivamente para o OpenAI. O mesmo supercomputador no Azure também foi usado para treinar modelos de linguagem natural GPT-3 do OpenAI e Codex, o modelo que alimenta o GitHub Copilot e alguns recursos do Microsoft Power Apps que são executados no Serviço OpenAI do Azure. O Azure também possibilita que essas ferramentas de IA gerem rapidamente sugestões de imagem, texto ou código para uma pessoa revisar e considerar o uso.   

A adição do DALL∙E 2 baseia-se na Microsoft e na parceria contínua com a OpenAI e expande os diversos casos de uso no Serviço OpenAI do Azure, o mais novo da família de Serviços Cognitivos do Azure atualmente em versão prévia, que oferece a segurança, confiabilidade, conformidade, privacidade de dados e outras funcionalidades de nível empresarial integrados ao Microsoft Azure.   

Outras tecnologias de IA desenvolvidas pela Microsoft e disponíveis por meio dos Serviços Cognitivos do Azure, como tradução de idiomas, transcrição de fala, reconhecimento óptico de caracteres e resumo de documentos estão aparecendo em produtos e serviços como Microsoft Teams, Microsoft Power Platform e Microsoft 365.   

“Nos últimos 18 meses, vimos essa transição tecnológica de provar que você pode fazer as coisas com IA para mapeá-la para cenários e processos reais em que ela é útil para o usuário final”, disse Charles Lamanna, vice-presidente corporativo de aplicativos e plataformas de negócios da Microsoft. “É a ‘produtização’ desses modelos de linguagem muito grandes.”  

“Sempre que eu receber um e-mail do meu chefe, envie uma mensagem de texto para o meu celular.”    

Essas funcionalidades de IA visam eliminar o tédio no trabalho e permitir que os funcionários se concentrem em tarefas de maior valor, como liberar os associados de vendas para conversar com os clientes sem ter que fazer anotações, disse Lamanna. Essas novas ferramentas também podem automatizar processos que atualmente consomem horas dos dias de trabalho das pessoas, como escrever resumos de ligações de vendas e adicioná-los a um banco de dados de clientes.    

“Agora podemos inserir IA que escuta nossa conversa e ajuda as pessoas a serem mais produtivas criando transcrições, capturando itens de ação, resumindo a reunião, identificando frases comuns ou fazendo análises sobre ‘Sou um bom ouvinte?’”, disse Lamanna. “Isso exigiu o avanço da IA de última geração e o avanço dessas ferramentas de colaboração digital.”  

Lamanna está focado em criar ferramentas que permitam que qualquer pessoa com um dispositivo de computação crie seus próprios aplicativos baseados em IA utilizando a Microsoft Power Platform.  

 Por exemplo, a equipe dele está implementando um recurso no Power Automate com funcionalidades de copiloto baseadas em IA que permitem que as pessoas usem linguagem natural para criar processos de fluxo de trabalho que conectam vários serviços em execução na nuvem da Microsoft.  

“Os usuários em linguagem normal podem dizer: ‘Ei, sempre que eu receber um e-mail do meu chefe, envie uma mensagem de texto para o meu celular e coloque uma tarefa pendente no meu Outlook’”, explicou Lamanna. “É só eles falarem isso que será gerado automaticamente.”  

Essa capacidade de transformar uma frase em um fluxo de trabalho expande drasticamente o número de pessoas que podem criar soluções de software baseadas em IA, disse ele. O VP acrescentou que pessoas com um know-how mais técnico podem personalizar e refinar ainda mais seus aplicativos com ferramentas low-code e interfaces gráficas disponíveis na Power Platform, como a tecnologia de processamento inteligente de documentos no AI Builder.  

Um advogado poderia usar essa tecnologia para criar um aplicativo personalizado que é acionado sempre que um novo contrato é carregado no site do SharePoint da empresa. Esse aplicativo poderia extrair informações importantes, como quem escreveu o contrato, as partes envolvidas e o setor da indústria e, em seguida, enviar por e-mail um resumo do contrato com esses detalhes para os advogados da empresa responsáveis pelo setor ou pelos clientes.  

“Isso é meio mágico”, disse Lamanna, contrastando esse tipo de fluxo de trabalho automatizado de IA com a forma como essas tarefas normalmente são realizadas hoje. “Você confere o site do SharePoint, abre um novo arquivo e tenta resumi-lo para ver se você tem que fazer alguma coisa com ele. A IA está poupando as pessoas dessa monotonia e fazendo com que os computadores façam o que é melhor para elas.”   

IA para conteúdo   

A transformação digital dos últimos anos aumentou a quantidade de conteúdo que as pessoas no mundo todo produzem. Os clientes da Microsoft, por exemplo, agora adicionam cerca de 1,6 bilhão de conteúdos todos os dias ao Microsoft 365. Estamos falando de apresentações de marketing, contratos, faturas e ordens de serviço, além de gravações de vídeo e transcrições das reuniões do Teams.    

“Eles estão criando documentos, colaborando neles no Teams e armazenando-os em experiências baseadas no SharePoint”, disse Jeff Teper, presidente de aplicativos e plataformas colaborativos da Microsoft. “O que queremos fazer é integrar as tecnologias de IA com esse conteúdo para que os clientes possam fazer atividades mais estruturadas, como aprovações de contratos, gerenciamento de faturas e arquivamentos regulatórios.”  

É por isso que a Microsoft criou o Microsoft Syntex, uma nova oferta de IA para conteúdo para o Microsoft 365 que aproveita os Serviços Cognitivos do Azure e outras tecnologias de IA para transformar a forma como o conteúdo é criado, processado e descoberto. A nova oferta lê, marca e indexa conteúdo, digital ou em papel, tornando-o pesquisável e disponível em aplicativos específicos ou como conhecimento reutilizável. Ela também pode gerenciar o ciclo de vida do conteúdo com configurações de segurança e retenção.   

A TaylorMade Golf Company, por exemplo, recorreu ao Microsoft Syntex em busca de um sistema de gerenciamento de documentos abrangente para organizar e proteger e-mails, anexos e outros documentos de propriedade intelectual e arquivamento de patentes. Na época, os advogados da empresa gerenciavam esse conteúdo manualmente, passando horas arquivando e transferindo documentos para serem compartilhados e processados posteriormente.    

Com o Microsoft Syntex, esses documentos são automaticamente classificados, marcados e filtrados de forma mais segura e que os torna fáceis de encontrar por meio de pesquisa, sem precisar pesquisar em um sistema tradicional de arquivos e pastas. A TaylorMade também está explorando maneiras de usar o Microsoft Syntex para processar automaticamente pedidos, recibos e outros documentos transacionais para as equipes de contas a pagar e finanças.    

Outros clientes estão usando o Microsoft Syntex para gerenciamento e montagem de contratos, observou Teper. Embora cada contrato possa ter elementos únicos, eles são construídos com cláusulas comuns em torno de termos financeiros, controle de alterações, cronograma e assim por diante. Em vez de escrever essas cláusulas comuns do zero todas as vezes, as pessoas podem usar o Syntex para montá-las a partir de vários documentos e, depois, introduzir alterações.    

“Elas precisam de IA e machine learning para identificar: ‘Ei, este parágrafo está muito diferente dos nossos termos padrão. Ele precisa de atenção extra’”, disse ele.   

“Tentar ler um contrato de 100 páginas e procurar o que mudou significativamente dá muito trabalho em comparação com a ajuda da IA para fazer isso”, acrescentou. “E depois tem o fluxo de trabalho envolvido nesses contratos: Quem os aprova? Onde eles são armazenados? Como encontrá-los depois? Uma grande parte disso são metadados.”    

Quando o DALL∙E 2 fica pessoal    

A disponibilidade do DALL∙E 2 no Serviço OpenAI do Azure provocou uma série de explorações na RTL Deutschland, a maior empresa privada de várias mídias da Alemanha, sobre como gerar imagens personalizadas com base nos interesses dos clientes. Por exemplo, no centro de dados, pesquisa e competência em IA da RTL, os cientistas de dados estão testando várias estratégias para aprimorar a experiência do usuário por imagens gerativas.    

O serviço de streaming da RTL Deutschland RTL+ está se expandindo para oferecer acesso por demanda a milhões de vídeos, álbuns musicais, podcasts, audiolivros e revistas eletrônicas. A plataforma depende muito de imagens para chamar a atenção das pessoas, disse Marc Egger, vice-presidente sênior de produtos e tecnologia de dados da equipe de dados da RTL.     

“Mesmo que você tenha a recomendação perfeita, você ainda não sabe se o usuário vai clicar nela porque o usuário está usando indicações visuais para decidir se ele ou ela está interessado(a) em consumir algo. Então a arte é muito importante, e você tem que ter a arte certa para a pessoa certa”, disse ele.     

Imagine um filme de comédia romântica sobre um jogador de futebol profissional que é transferido para Paris e se apaixona por alguém nativo que escreve sobre esportes. Um fã de esportes pode estar mais inclinado a ver o filme se houver uma imagem de um jogo de futebol. Alguém que adora romances ou viagens pode estar mais interessado em uma imagem do casal se beijando debaixo da Torre Eiffel.    

Combinar o poder do DALL∙E 2 e dos metadados sobre o tipo de conteúdo com o qual um usuário interagiu no passado oferece o potencial de oferecer imagens personalizadas em uma escala anteriormente inconcebível, disse Egger.    

“Se você tem milhões de usuários e milhões de ativos, você tem o problema de que simplesmente não pode escalonar; a força de trabalho não existe”, disse ele. “Você nunca teria designers gráficos suficientes para criar todas as imagens personalizadas que deseja. Portanto, essa é uma tecnologia que capacita fazer coisas que, de outra forma, você não conseguiria fazer.”    

A equipe de Egger também está considerando como usar o DALL∙E 2 no Serviço OpenAI do Azure para criar recursos visuais para conteúdo que atualmente carece de imagens, como episódios de podcast e cenas em audiolivros. Por exemplo, os metadados de um episódio de podcast podem ser usados para gerar uma imagem única para acompanhá-lo, em vez de repetir sem parar a mesma imagem geral do podcast.

No mesmo sentido, uma pessoa que está ouvindo um audiolivro no celular normalmente olharia para a mesma arte da capa do livro em todos os capítulos. O DALLE 2 pode ser usado para gerar uma imagem única para acompanhar cada cena em cada capítulo.    

Egger acrescentou que usar o DALLE 2 por meio do Serviço OpenAI do Azure oferece acesso a outros serviços e ferramentas do Azure em um único lugar, o que permite que sua equipe trabalhe de forma eficiente e contínua. “Como acontece com todos os outros produtos de software como serviço, temos a garantia de que, se precisarmos de grandes quantidades de imagens criadas pelo DALLE, não vamos nos preocupar em consegui-las online.”  

O uso adequado e responsável do DALLE 2  

Segundo Sarah Bird, gerente de projetos do grupo principal de IA do Azure da Microsoft, nenhuma tecnologia de IA provocou tanta emoção quanto sistemas como o DALLE 2 que podem gerar imagens a partir de descrições de linguagem natural.   

“As pessoas adoram imagens, e para alguém como eu que não é nem um pouco artística visualmente, eu posso fazer algo muito mais bonito do que eu jamais seria capaz de fazer usando outras ferramentas visuais”, disse ela sobre o DALLE 2. “É dar aos humanos uma nova ferramenta para se expressarem criativamente e se comunicarem de maneiras convincentes, divertidas e interessantes.”  

A equipe de Bird se concentra no desenvolvimento de ferramentas e técnicas que orientam as pessoas para o uso apropriado e responsável de ferramentas de IA , como o DALLE 2 na IA do Azure, e que limitam seu uso de maneiras que podem causar danos.

Para ajudar a evitar que o DALLE 2 forneça resultados inadequados no Serviço OpenAI do Azure, o OpenAI removeu o conteúdo sexual e violento mais explícito do conjunto de dados utilizado para treinar o modelo, e o IA do Azure implementou filtros para rejeitar prompts que violam a política de conteúdo.  

Além disso, a equipe possui técnicas integradas que impedem o DALLE 2 de criar imagens de celebridades, bem como de objetos que são comumente utilizados para tentar enganar o sistema e gerar conteúdo sexual ou violento. No lado dos resultados, a equipe adicionou modelos que removem imagens geradas por IA que parecem conter conteúdo adulto, gore e outros tipos de conteúdo inadequado.  

O DALLE 2 ainda está sujeito a um desafio que muitos sistemas de IA enfrentam: o sistema é tão bom quanto os dados usados para treiná-lo. Sem o benefício do contexto que fornece insights para a intenção do usuário, prompts menos descritivos para o DALL-E 2 podem apresentar tendências embutidas nos dados de treinamento, texto e imagens da internet.  

É por isso que Bird está trabalhando com as equipes de produtos da Microsoft para ensinar as pessoas a usar o DALL∙E 2 de maneiras que as ajudem a atingir seus objetivos, como usar prompts mais descritivos que ajudem o sistema de IA a entender melhor quais resultados elas estão buscando.  

“Estamos projetando as interfaces para ajudar os usuários a terem melhores resultados no que estão gerando e compartilhando as limitações hoje, para que os usuários possam usar esta ferramenta para obter a representação que querem, e não qualquer representação mais ou menos que exista na Internet”, disse ela.  

“Como prever o futuro?” 

Buse entrou recentemente para a Mattel Future Lab, que está explorando ideias como o metaverso e os NFTs, ou tokens não fungíveis, para expandir o alcance da empresa de brinquedos. Ela está usando o DALLE 2 como ferramenta para ajudá-la a imaginar como seriam essas experiências virtuais.  

“É divertido ficar fuçando aqui para pensar sobre o que surgiria em um mundo virtual baseado em (escolha um descritor) uma floresta, sereias, qualquer coisa”, disse ela, explicando que o DALL∙E 2 está ajudando sua equipe a prever esse futuro. “Como prever o futuro? Você continua se alimentando de mais informações, mais imagens e pensamentos para tentar imaginar como isso se encaixaria.”  

Boyd, vice-presidente corporativo da Microsoft AI Platform, disse que o DALLE 2 e a família de grandes modelos de linguagem que o sustentam estão liberando essa força criativa entre os clientes. O sistema de IA é combustível para a imaginação, permitindo que os usuários pensem em ideias novas e interessantes e deem vida a elas em suas apresentações e documentos.   

“Acho que o mais emocionante é que estamos só começando a explorar a potência desses grandes modelos de linguagem”, disse ele.    

Relacionados:    

  John Roach escreve sobre pesquisa e inovação da Microsoft. Siga-o no Twitter.  

Tags: ,

Posts Relacionados