Reduzindo o ‘deserto de dados’: esforços internos para tornar os sistemas de IA mais inclusivos para pessoas com deficiência

cama com bichinho de peulica e biblia em cima

Por Jennifer Langston

Saqib Shaikh diz que pessoas cegas, como ele, normalmente desenvolvem rotinas altamente organizadas para manter o controle de suas coisas – colocar chaves, carteiras, bengalas e outros itens essenciais nos mesmos lugares todas as vezes.

homem sorrido olhando para o lado
Saqib Shaikh, principal líder de engenharia de software da Microsoft e um dos fundadores do Seeing AI. Foto de John Brecher.

Mas às vezes a vida fica complicada: uma criança precisa de ajuda para encontrar um bicho de pelúcia perdido, lixeiras idênticas são movidas no meio-fio ou casacos se misturam em uma festa.

Hoje, uma pessoa que usa o aplicativo Seeing AI  da Microsoft pode apontar a câmera de um telefone para uma cena, como uma mesa de sala de conferências, e ouvir uma descrição do que está no quadro: laptops, garrafas de água, cabos de alimentação, telefones. Mas às vezes também seria útil para os algoritmos de aprendizado de máquina que permitem que o aplicativo reconheça objetos específicos de cada pessoa, disse Shaikh, engenheiro da Microsoft cuja equipe inventou o Seeing AI.

Até recentemente, não havia dados relevantes suficientes para treinar algoritmos de aprendizado de máquina para lidar com esse tipo de reconhecimento de objeto personalizado para pessoas com deficiência visual. É por isso que a City, University of London, uma beneficiária da Microsoft AI for Accessibility, lançou o projeto de pesquisa Object Recognition for Blind Image Training (ORBIT) para criar um conjunto de dados públicos do zero, usando vídeos enviados por pessoas cegas ou com baixa visão.

Os dados serão usados ​​para treinar e testar novos algoritmos para reconhecer e localizar objetos pessoais importantes, que podem variar de telefones celulares a coberturas faciais e utensílios de cozinha.

“Sem dados, não há aprendizado de máquina”, disse Simone Stumpf, palestrante sênior do Centro de Design de Interação Humano-Computador da City, University of London, que lidera o ORBIT. “E realmente não houve nenhum conjunto de dados de um tamanho que alguém pudesse usar para introduzir uma mudança de etapa nesta área relativamente nova da IA.” ¬

A falta de conjuntos de dados de aprendizado de máquina que representam ou incluem pessoas com deficiência é um obstáculo comum para pesquisadores ou desenvolvedores que trabalham com essas comunidades para desenvolver soluções inteligentes que podem ajudar nas tarefas diárias ou criar sistemas de IA menos propensos a ampliar preconceitos que podem distorcer decisões fazer.

“Estamos em um deserto de dados”, disse Mary Bellard, principal arquiteta de inovação da Microsoft, que também supervisiona o programa de IA para acessibilidade. “Há muita paixão e energia em fazer coisas realmente legais com IA e pessoas com deficiência, mas não temos dados suficientes.”

“É como se tivéssemos o carro e ele estivesse embalado e pronto para ir, mas não tivesse gasolina. Não temos dados suficientes para impulsionar essas ideias. ”

Para começar a reduzir esse deserto de dados, os pesquisadores da Microsoft trabalharam no último ano e meio para investigar e sugerir maneiras de tornar os sistemas de IA mais inclusivos para pessoas com deficiência. A empresa também está financiando e colaborando com os donatários do AI for Accessibility para criar ou usar conjuntos de dados de treinamento mais representativos, como ORBIT e a Microsoft Ability Initiative com pesquisadores da University of Texas em Austin.

Mary Bellard sorrido para camera
Mary Bellard, principal arquiteta de inovação líder da Microsoft, que supervisiona o programa de IA para acessibilidade. Foto cedida por Bellard.

Hoje, a Team Gleason anunciou que está fazendo parceria com a Microsoft no Project Insight, que criará um conjunto de dados aberto de imagens faciais de pessoas que vivem com ALS para ajudar a promover a inovação em visão computacional e treinar esses modelos de IA de forma mais abrangente.

É um problema de toda a indústria que não será resolvido por um projeto ou organização sozinha, diz a Microsoft. Mas novas colaborações estão começando a resolver o problema.

Um roteiro de pesquisa sobre a justiça e deficiência da IA ​​publicado pela Microsoft Research e um workshop sobre deficiência, preconceito e IA realizado no ano passado com o AI Now Institute da New York University encontrou uma série de possíveis áreas nas quais algoritmos de IA convencionais que não são treinados os dados inclusivos não funcionam bem para as pessoas com deficiência ou podem prejudicá-las ativamente.

Se os algoritmos de detecção de pedestres de um carro que dirige sozinho não apresentam exemplos de pessoas que usam cadeiras de rodas ou cuja postura ou marcha é diferente devido à idade avançada, por exemplo, eles podem não identificar corretamente essas pessoas como objetos para evitar ou estimar quanto mais tempo eles precisam para atravessar a rua com segurança, observaram os pesquisadores.

Os modelos de IA usados ​​em processos de contratação que tentam ler personalidades ou interpretar o sentimento de potenciais candidatos a empregos podem interpretar mal as pistas e filtrar candidatos qualificados com autismo ou que tenham emoções diferentes. Algoritmos que leem caligrafia podem não ser capazes de lidar com exemplos de pessoas com doença de Parkinson ou tremores. Os sistemas de reconhecimento de gestos podem ser confundidos por pessoas com membros amputados ou formas corporais diferentes.

É bastante comum que algumas pessoas com deficiência sejam as primeiras a adotar tecnologias inteligentes, mas muitas vezes elas não são representadas de forma adequada nos dados que informam como esses sistemas funcionam, dizem os pesquisadores.

“Quando as tecnologias são tão desejadas por uma comunidade, elas geralmente estão dispostas a tolerar uma taxa maior de erros”, disse Meredith Ringel Morris, pesquisadora sênior que gerencia a Equipe de Capacidade de Pesquisa da Microsoft. “Portanto, sistemas de IA imperfeitos ainda têm valor, mas poderiam fornecer muito mais e funcionar muito melhor se fossem treinados em dados mais inclusivos.”

‘Empurrando o estado da arte’

Danna Gurari, uma beneficiária de IA para acessibilidade e professora assistente da Universidade do Texas em Austin, tinha esse objetivo em mente quando começou a desenvolver os conjuntos de dados VizWiz. Eles incluem dezenas de milhares de fotografias e perguntas enviadas por pessoas cegas ou com baixa visão a um aplicativo desenvolvido originalmente por pesquisadores da Carnegie Mellon University.

As perguntas variam: qual é a data de validade deste leite? O que esta camisa diz? As pontas dos meus dedos parecem azuis? Essas nuvens parecem tempestuosas? Os briquetes de carvão nesta grelha parecem prontos? Como é a imagem deste cartão de aniversário?

O aplicativo originalmente coletou respostas de pessoas em toda a Internet, mas Gurari se perguntou se ela poderia usar os dados para melhorar a forma como algoritmos de visão computacional interpretam fotos tiradas por pessoas cegas.

Muitas dessas perguntas exigem a leitura de um texto, como determinar a quantidade de um medicamento sem receita que é seguro tomar. A pesquisa de visão computacional freqüentemente trata isso como um problema separado, por exemplo, de reconhecer objetos ou tentar interpretar fotos de baixa qualidade. Mas descrever com sucesso fotos do mundo real requer uma abordagem integrada, disse Gurari.

mulher sorrido
Danna Gurari, beneficiária da AI for Accessibility, professora assistente da Universidade do Texas em Austin, que desenvolveu o conjunto de dados VizWiz e dirige o Grupo de Imagem e Vídeo Computação da Escola de Informação.

Além disso, os algoritmos de visão computacional normalmente aprendem com grandes conjuntos de dados de imagens baixadas da Internet. A maioria é tirada por pessoas com visão e reflete o interesse do fotógrafo, com itens que estão centralizados e em foco.

Mas um algoritmo que foi treinado apenas em imagens perfeitas provavelmente terá um desempenho ruim para descrever o que está em uma foto tirada por uma pessoa cega; pode estar desfocado, fora do centro ou retroiluminado. E às vezes o que essa pessoa quer saber depende de um detalhe que uma pessoa que enxerga pode não pensar em rotular, como se uma camisa está limpa ou suja.

“Muitas vezes não é óbvio o que é significativo para as pessoas, e é por isso que é tão importante não apenas projetar para – mas projetar essas tecnologias com – pessoas que estão na comunidade de cegos e com baixa visão”, disse Gurari, que também dirige a Escola de Grupo de Computação de Imagem e Vídeo da Information da Universidade do Texas em Austin.

Sua equipe assumiu a enorme tarefa de limpar o conjunto de dados VizWiz original para torná-lo utilizável para treinamento de algoritmos de aprendizado de máquina – removendo imagens inadequadas, identificando novos rótulos, limpando informações pessoais e até mesmo traduzindo perguntas de áudio em texto para remover a possibilidade de que a voz de alguém pudesse ser reconhecido.

Trabalhando com financiamento e pesquisadores da Microsoft, a equipe de Gurari desenvolveu um novo conjunto de dados públicos para treinar, validar e testar algoritmos de legendagem de imagens. Inclui mais de 39.000 imagens tiradas por participantes cegos e com baixa visão e cinco legendas possíveis para cada uma. Sua equipe também está trabalhando em algoritmos que podem reconhecer imediatamente quando uma imagem enviada por alguém está muito borrada, obscurecida ou mal iluminada e sugere como tentar novamente.

No início deste ano, a Microsoft patrocinou um desafio aberto a outros pesquisadores da indústria e acadêmicos para testar seus algoritmos de legendagem de imagens no conjunto de dados VizWiz. Em uma métrica de avaliação comum, o algoritmo de melhor desempenho postou uma melhoria de 33% em relação ao estado da técnica anterior.

“Isso está realmente levando o que há de mais moderno em legendas para a comunidade cega”, disse Shaikh, engenheiro-chefe do Seeing AI, que está trabalhando com donatários da AI para Acessibilidade e seus conjuntos de dados para desenvolver melhorias potenciais para o aplicativo.

montagem
O conjunto de dados VizWiz Image Captioning fornece cinco legendas possíveis para cada imagem, como esses exemplos à direita de cada foto. Isso ajuda os algoritmos de visão por computador a aprender melhor a reconhecer e descrever o que é exibido nas fotos enviadas por pessoas cegas ou com baixa visão. Fotos disponíveis por meio de uma licença Creative Commons 4.0.

Disponibilizando conjuntos de dados inclusivos para todos

Como os sistemas de IA modelam o mundo com base nos dados que recebem, as pessoas que não refletem os padrões nos dados podem ser negligenciadas ou ativamente discriminadas. Embora a comunidade de IA tenha cada vez mais reconhecido e trabalhado para melhorar a justiça desses sistemas quando se trata de gênero e raça, as conversas sobre a inclusão de pessoas com deficiência estão muito mais incipientes, dizem os pesquisadores.

A Microsoft Research lançou um esforço multifacetado para definir a extensão do problema e os caminhos para melhorias – incluindo o workshop realizado com o AI Now Institute da NYU no ano passado. O workshop reuniu acadêmicos e ativistas com deficiência, profissionais de aprendizado de máquina e pesquisadores de ciência da computação para começar a discutir como criar sistemas de IA que evitem tratar pessoas com deficiência como casos extremos ou discrepantes.

“Isso realmente aponta para a questão de como ‘normal’ é definido pelos sistemas de IA e quem pode decidir isso”, disse Kate Crawford, pesquisadora principal sênior da Microsoft Research New York e cofundadora da organização Fairness, Accountability, Transparency and Ética (FATE) no grupo AI.”

Veja o exemplo de um sistema de contratação preditivo que avalia entrevistas em vídeo de candidatos a empregos e sugere como será a aparência e a aparência de um funcionário “bem-sucedido”, disse Crawford.

“Foi treinado com dados que sugerem que certas habilidades ou maneiras de ser são padronizadas e, portanto, desejáveis? As pessoas com deficiência ou de alguma forma diferentes têm classificação inferior para contratação potencial porque diferem dos dados no conjunto de treinamento? É disso que realmente precisamos estar cientes e contra o que trabalhar”, disse Crawford.

Para avançar nessa meta, uma área que os pesquisadores da Microsoft estão investigando é a frequência com que os conjuntos de dados públicos comumente usados ​​para treinar sistemas de IA incluem dados de pessoas com mais de 80 anos, porque a idade está fortemente relacionada à deficiência. Morris e seus colegas também têm explorado como os algoritmos de pesquisa podem ser ajustados para melhorar os resultados para pessoas com dislexia.

No verão passado, a Microsoft recebeu o especialista em tecnologias de deficiência Shaun Kane, professor associado de ciência da computação na University of Colorado Boulder, como pesquisador visitante para investigar em conjunto como os sistemas de detecção inteligente podem não reconhecer ou responder adequadamente a pessoas que usam cadeiras de rodas ou têm membros amputados , deficiências motoras ou morfologia corporal que está fora dos exemplos em que esses algoritmos foram treinados.

A Microsoft e seus donatários também estão explorando como enfrentar desafios práticos e estão desenvolvendo abordagens éticas para solicitar dados de treinamento de IA de pessoas com deficiências. Algumas pessoas que se preocupam com o estigma ou responsabilidades não querem revelar sua condição de deficiência, por exemplo, portanto, manter a privacidade é fundamental.

A equipe de Stumpf analisa cada vídeo enviado ao conjunto de dados ORBIT para garantir que ele não inclua inadvertidamente informações de identificação. Eles também tiveram que criar instruções detalhadas sobre como gravar vídeos de cada item, porque precisam de filmagens de vários ângulos e também querem que as pessoas possam coletar os dados sem a ajuda de uma pessoa com visão.

Na primeira fase do projeto no Reino Unido, a equipe coletou vários milhares de vídeos, tornando-o de longe o maior conjunto de dados desse tipo. A equipe planeja abrir a segunda fase de coleta de dados globalmente em meados de outubro.

“Na verdade, ainda estamos tentando encontrar um equilíbrio entre obter bons dados com os quais possamos inovar como pesquisadores e permitir que as pessoas sejam os condutores das tecnologias que usarão de uma forma não muito difícil ou com muitas regras”, disse Cecily Morrison, pesquisadora principal da Microsoft Research Cambridge no Reino Unido. “Se as pessoas acharem o processo difícil ou enfadonho, vão pensar:‘ IA não é para mim ’.”

Morrison co-lidera o Projeto Tóquio, que enfoca como a IA pode ajudar pessoas cegas ou com baixa visão a entender seu ambiente. Para isso, ela está colaborando com a equipe de Stumpf em algoritmos que são capazes de aprender com menos exemplos, que poderiam ter aplicações abrangentes.

O objetivo é tornar o conjunto de dados ORBIT disponível publicamente, disse Stumpf, para ajudar a tornar a vida cotidiana melhor em tantas situações quanto possível. Por exemplo, se uma pessoa cega está visitando a casa de um amigo pela primeira vez, um aplicativo de navegação que depende de um sistema de GPS só pode levá-lo até certo ponto.

“Quando você está diante de um endereço, ainda precisa saber se esta é realmente a casa do meu amigo ou de outra pessoa”, disse Stumpf. “Com fotos da porta da frente de um amigo ou outros locais de interesse, você pode usar o reconhecimento de objeto personalizado para identificar locais que são particularmente importantes para você.”

Jennifer Langston escreve sobre pesquisa e inovação da Microsoft. Siga-a no Twitter.

Tags: , ,

Posts Relacionados