O que é isso? A mais recente descoberta da Microsoft, agora no Azure AI, descreve imagens tão bem quanto as pessoas

Os pesquisadores da Microsoft construíram um sistema de inteligência artificial que pode gerar legendas para imagens que são, em muitos casos, mais precisas do que as descrições que as pessoas escrevem. O avanço em um desafio de referência é um marco no esforço da Microsoft para tornar seus produtos e serviços inclusivos e acessíveis a todos os usuários.

“A legendagem de imagens é um dos principais recursos de visão computacional que pode habilitar uma ampla gama de serviços”, disse Xuedong Huang, técnico da Microsoft e diretor de tecnologia dos Serviços Cognitivos de IA do Azure em Redmond, Washington.

O novo modelo agora está disponível para clientes por meio da oferta do Azure Cognitive Services Computer Vision, que faz parte do Azure AI, permitindo que os desenvolvedores usem esse recurso para melhorar a acessibilidade em seus próprios serviços. Ele também está sendo incorporado ao Seeing AI e começará a ser lançado ainda este ano no Microsoft Word e Outlook, para Windows e Mac, e PowerPoint para Windows, Mac e web.

A legendagem automática de imagens ajuda todos os usuários a acessar o conteúdo importante de qualquer imagem, desde uma foto retornada como resultado de pesquisa até uma imagem incluída em uma apresentação. Um avanço de pesquisa como este pode melhorar esses resultados, embora isso não signifique que o sistema retornará resultados perfeitos todas as vezes.

O uso de legendas de imagem para gerar uma descrição de foto, conhecido como texto alternativo, em uma página da web ou documento, é especialmente importante para pessoas cegas ou com baixa visão, observou Saqib Shaikh, gerente de engenharia de software do grupo de plataforma de IA da Microsoft em Redmond.

Por exemplo, sua equipe está usando o recurso de legendagem de imagem aprimorado no aplicativo de câmera falante Seeing AI para pessoas cegas ou com baixa visão. O aplicativo usa legendagem de imagens para descrever fotos, incluindo aquelas de aplicativos de mídia social.

“O ideal é que todos incluam texto alternativo para todas as imagens em documentos, na web, nas redes sociais – pois isso permite que pessoas cegas acessem o conteúdo e participem da conversa. Mas, infelizmente, as pessoas não fazem isso”, disse Shaikh. “Portanto, existem vários aplicativos que usam legendas de imagens como forma de preencher o texto alternativo quando ele está faltando.”

Legendas de objetos novos

A legendagem de imagens é um desafio central na disciplina de visão computacional, que requer um sistema de IA para compreender e descrever o conteúdo saliente, ou ação, em uma imagem, explicou Lijuan Wang, gerente principal de pesquisa do laboratório da Microsoft em Redmond.

“Você realmente precisa entender o que está acontecendo, saber a relação entre objetos e ações e resumir e descrever em uma frase com linguagem natural”, disse ela.

Wang liderou a equipe de pesquisa que alcançou – e superou – a paridade humana no novo objeto de legendagem em escala, ou nocaps, benchmark. O benchmark avalia os sistemas de IA sobre como eles geram legendas para objetos em imagens que não estão no conjunto de dados usado para treiná-los.

Os sistemas de legendagem de imagens são normalmente treinados com conjuntos de dados que contêm imagens emparelhadas com frases que descrevem as imagens.

“O desafio nocaps é: como você é capaz de descrever novos objetos que não viu em seus dados de treinamento?”, disse Wang.

Para enfrentar o desafio, a equipe da Microsoft pré treinou um grande modelo de IA com um rico conjunto de dados de imagens emparelhadas com marcas de palavras. Cada marca foi mapeada para um objeto específico em uma imagem.

Conjuntos de dados de imagens com marcas de palavras em vez de legendas completas são mais eficientes de criar, o que permitiu à equipe de Wang inserir muitos dados em seu modelo. A abordagem imbuiu o modelo com o que a equipe chama de vocabulário visual.

A abordagem de pré-treinamento de vocabulário visual, explicou Huang, é semelhante a preparar as crianças para lerem usando primeiro um livro de imagens que associa palavras individuais a imagens, como a imagem de uma maçã com a palavra “maçã” abaixo dela.

“Este pré-treinamento de vocabulário visual é essencialmente a educação necessária para treinar o sistema; estamos tentando educar essa memória motora”, disse Huang.

O modelo pré-treinado é então ajustado para legendagem no conjunto de dados de imagens legendadas. Nessa etapa do treinamento, o modelo aprende a compor uma frase. Quando apresentado com uma imagem contendo novos objetos, o sistema de IA aproveita o vocabulário visual para gerar uma legenda precisa.

“Ele combina o que é aprendido no pré-treinamento e no ajuste fino para lidar com objetos novos nos testes”, disse Wang.

Quando avaliado em nocaps, o sistema de IA criou legendas mais descritivas e precisas do que as legendas para as mesmas imagens que foram escritas por pessoas, de acordo com os resultados apresentados em um artigo de pesquisa.

Envio rápido para produção

O novo sistema de legendagem de imagens também é duas vezes melhor do que o modelo de legendagem de imagens usado em produtos e serviços da Microsoft desde 2015, de acordo com uma comparação em outro benchmark da indústria.

Dado o benefício de legendagem de imagem aprimorada para todos os usuários de produtos e serviços Microsoft, Huang acelerou a integração do novo modelo no Azure.

“Estamos levando essa inovação de IA para o Azure como uma plataforma para atender a um conjunto mais amplo de clientes”, disse ele. “Não é apenas um progresso na pesquisa; o tempo que levou para transformar esse avanço em produção no Azure também é um avanço ”.

Alcançar a paridade humana nas legendas de imagens, ele acrescentou, continua sendo um tema de conquista nos sistemas de IA cognitiva da Microsoft.

“Nos últimos cinco anos”, disse Huang, “alcançamos cinco grandes paridades humanas: no reconhecimento de fala, na tradução automática, na resposta a perguntas de conversação, na compreensão de leitura automática e em 2020, apesar do COVID-19, nós obtivemos a legenda da imagem com paridade humana. ”

Imagem superior: Legado: um homem andando de skate na lateral de um prédio. Novo: Um jogador de beisebol pegando uma bola. Foto cedida por Getty Images.

Tags: , , , ,

Posts Relacionados