Pesquisadores da Microsoft criam um bot que desenha o que você pedir

Por John Roach //

Se você receber um pedido para desenhar um pássaro com corpo amarelo, asas pretas e bico curto, é provável que comece com um esboço aproximado de um pássaro, depois olhe os itens solicitados, veja a parte amarela e pegue um lápis amarelo para preencher o corpo, leia novamente o pedido e pegue uma caneta preta para desenhar as asas e, após uma última olhada, encurte o bico. Para finalizar, você pode esboçar um galho de árvore onde o pássaro descansa.

Agora, existe um bot que pode fazer isso também.

A nova tecnologia de inteligência artificial em desenvolvimento nos laboratórios de pesquisa da Microsoft está programada para prestar muita atenção a palavras isoladas ao gerar imagens a partir de descrições de texto. Esse foco produziu uma qualidade de imagem quase três vezes maior em comparação com a técnica anterior para geração de imagem a partir de texto, de acordo com os resultados de um teste padrão da indústria relatado em um artigo de pesquisa publicado no arXiv.org.

A tecnologia, que os pesquisadores chamam simplesmente de bot desenhista, pode gerar imagens de tudo, desde cenas rurais comuns, como gado na pastagem, até coisas mais complexas, como um ônibus flutuante de dois andares. Cada imagem contém detalhes que estão ausentes nas descrições de texto, indicando que essa inteligência artificial possui uma imaginação artificial.

“Se você for ao Bing e procurar um pássaro, você terá a foto de um pássaro. Mas aqui, as imagens são criadas pelo computador, pixel por pixel, desde o início”, disse Xiaodong He, pesquisador principal e gerente de pesquisa no Deep Learning Technology Center, no laboratório de pesquisa da Microsoft, em Redmond, Washington. “Essas aves podem não existir no mundo real – elas são apenas um aspecto da imaginação do nosso computador.”

O bot desenhista encerra um círculo de pesquisa em torno da intersecção de visão computacional e processamento de linguagem natural que He e seus colegas exploraram durante os últimos cinco anos. Eles começaram com a tecnologia que escreve automaticamente legendas de fotos – o CaptionBot – e, em seguida, passaram a trabalhar em uma tecnologia que responde a perguntas que os humanos fazem sobre imagens, como a localização ou os atributos dos objetos, o que pode ser especialmente útil para pessoas cegas e foi incorporado ao projeto Seeing AI da Microsoft.

Esses esforços de pesquisa exigem modelos de treinamento de máquina para identificar objetos, interpretar ações e conversar em linguagem natural.

“Agora queremos usar o texto para gerar a imagem”, disse Qiuyuan Huang, pesquisador pós-doutorando do grupo de He e coautor do trabalho. “É um ciclo.”

A geração de imagens é uma tarefa mais desafiadora do que a legendagem, acrescentou Pengchuan Zhang, pesquisador associado da equipe, porque o processo requer que o bot desenhista imagine detalhes que não estão contidos na legenda. “Isso significa que você precisa deseus algoritmos de aprendizagem de máquina executando sua inteligência artificial para imaginar algumas partes faltantes das imagens”, disse ele.

Geração de imagem atenta

No núcleo do bot desenhista da Microsoft existe uma tecnologia conhecida como Rede Generativa Adversarial, ou GAN. A rede consiste de dois modelos de aprendizagem de máquina, que geram imagens a partir de descrições em texto e outra, conhecida como discriminador, que utiliza descrições de texto para julgar a autenticidade das imagens geradas. O gerador tenta passar fotos falsas pelo discriminador, e este não quer ser enganado. Trabalhando juntos, o discriminador empurra o gerador para a perfeição.

O bot desenhista da Microsoft foi treinado com conjuntos de dados que contêm imagens e legendas emparelhadas, o que permite que os modelos aprendam a combinar as palavras com a representação visual dessas palavras. O GAN, por exemplo, aprende a gerar uma imagem de um pássaro quando uma legenda diz pássaro e, da mesma forma, aprende como a imagem de um pássaro deveria ser. “Essa é uma razão fundamental pela qual acreditamos que uma máquina pode aprender”, disse He.

Os GANs funcionam bem ao gerar imagens a partir de descrições de texto simples, como um pássaro azul ou uma árvore de folhas verdes, mas a qualidade fica estagnada com descrições de texto mais complexas, como um pássaro com uma coroa verde, asas amarelas e uma barriga vermelha. Isso porque a sentença completa serve como uma única entrada para o gerador. A informação detalhada da descrição se perde. Como resultado, a imagem gerada é uma versão borrada de um pássaro avermelhado, esverdeado e amarelado em vez disso, em vez de uma combinação precisa e nítida como a descrição.

À medida que os seres humanos desenham, nos referimos repetidamente ao texto e prestamos muita atenção às palavras que descrevem a região da imagem que estamos desenhando. Para capturar esse traço humano, os pesquisadores criaram o que eles chamam de GAN atento, ou AttnGAN, que representa matematicamente o conceito humano de atenção. Ele faz isso dividindo o texto de entrada em palavras isoladas e combinando esses termos com regiões específicas da imagem.

“A atenção é um conceito humano; usamos matemática para fazer a computação de atenção “, explicou He.

O modelo também aprende o que os seres humanos chamam de senso comum dos dados de treinamento, e ele puxa essa noção aprendida para preencher detalhes de imagens que são deixadas para a imaginação. Por exemplo, uma vez que muitas imagens de aves nos dados de treinamento mostram pássaros sentados em galhos de árvores, o AttnGAN geralmente desenha pássaros sentados em ramos, a menos que o texto especifique o contrário.

“A partir dos dados, o algoritmo de aprendizagem de máquina aprende esse senso comum ao qual o pássaro deveria pertencer”, disse Zhang. Como um teste, a equipe alimentou as legendas do bot desenhista para produzir imagens absurdas, como ‘um ônibus vermelho de dois andares está flutuando em um lago’. Ele gerou uma imagem borrada e fraca que se assemelha a um barco com duas plataformas e a um ônibus com dois andares em um lago cercado por montanhas. A imagem sugere que o bot teve uma dúvida interna entre saber que os barcos flutuam nos lagos e as especificações de texto do ônibus.

“Podemos controlar o que descrevemos e ver como a máquina reage”, explicou He. “Podemos induzir e testar o que a máquina aprendeu. A máquina tem algum senso comum aprendido, mas ainda pode seguir o que você pergunta e talvez, às vezes, pareça um pouco ridículo.”

Aplicações práticas

A tecnologia de geração de imagem a partir de texto poderia encontrar aplicações práticas que atuam como uma espécie de assistente de esboço para pintores e designers de interiores, ou como uma ferramenta para refinamento de foto ativado por voz. Com mais poder de computação, He imagina que a tecnologia pode gerar filmes animados com base em roteiros, melhorando o desempenho dos cineastas de animação ao remover parte do trabalho manual envolvido.

Por enquanto, a tecnologia é imperfeita. Um exame próximo de imagens quase sempre revela falhas, como pássaros com bicos azuis em vez de pretos e suportes de frutas com bananas mutantes. Essas falhas são uma indicação clara de que um computador, não um humano, criou as imagens. No entanto, a qualidade das imagens AttnGAN é uma melhoria de quase três vezes em relação ao GAN anterior e serve como um marco na estrada em direção a uma inteligência genérica, semelhante à humana, que aumenta as capacidades humanas, de acordo com He.

“Para que a inteligência artificial e os seres humanos vivam no mesmo mundo, eles têm que ter uma maneira de interagir”, explicou He. “E o idioma e a visão são as duas modalidades mais importantes para que seres humanos e máquinas interajam uns com os outros.”

Além de Xiaodong He, Pengchuan Zhang e Qiuyuan Huang na Microsoft, colaboram no projeto os ex-estagiários Tao Xu, da Lehigh University, e Zhe Gan, da Duke University, além de Han Zhang, da Universidade Rutgers, e Xiaolei Huang, da Universidade Lehigh.

John Roach escreve sobre pesquisa e inovação na Microsoft.

Tags: , , , ,

Posts Relacionados