A oportunidade em casa – a IA pode impulsionar a inovação em dispositivos pessoais e em linguagem de sinais?

Por Ioana Tanase

O avanço da inovação tecnológica e a busca por dados ligados à linguagem de sinais são áreas de foco do programa AI for Accessibility. Para atingir esses objetivos, em 2019 a equipe organizou um workshop de linguagem de sinais, convocando os principais pesquisadores da área. Abraham Glasser, doutorando em Ciências da Computação e Informação e sinalizador nativo da Língua Americana de Sinais (ASL na sigla em inglês), supervisionado pelo professor Matt Huenerfauth, recebeu uma bolsa de três anos. Seu trabalho se concentra em uma necessidade e uma oportunidade muito pragmáticas: estimular a inclusão de pessoas que usam a linguagem de sinais como principal forma de comunicação, melhorando a interação com assistentes inteligentes domésticos.

Desde então, professores e alunos do Golisano College of Computing and Information Sciences do Rochester Institute of Technology (RIT) realizaram o trabalho no Center for Accessibility and Inclusion Research (CAIR). O CAIR publica pesquisas sobre acessibilidade computacional e possui muitos alunos com deficiência auditiva bilíngues em inglês e Língua Americana de Sinais.

Para iniciar essa pesquisa, a equipe investigou como os usuários com deficiência auditiva preferiam interagir com seus dispositivos pessoais de assistência, seja um alto-falante inteligente ou outro aparelho que responda a comandos de voz – essa era a forma mais tradicional de controle, mas conforme a tecnologia evoluiu, os modelos mais recentes agora incorporam câmeras e telas de exibição. Atualmente, nenhum dos dispositivos disponíveis no mercado entende comandos em ASL ou outras linguagens de sinais, portanto, a introdução dessa capacidade é um desenvolvimento tecnológico importante para atender a uma base de clientes inexplorada e impulsionar sua inclusão. Abraham estudou cenários simulados em que, por meio da câmera do dispositivo, o equipamento poderia ver a sinalização do usuário, processar sua solicitação e exibir o resultado na tela do dispositivo.

Algumas pesquisas anteriores se concentraram nas fases de interação com o dispositivo pessoal, mas poucas incluíam usuários com deficiência auditiva. Alguns exemplos de pesquisas disponíveis estudaram a ativação do dispositivo, como ligar o aparelho em modo de repouso, bem como a comunicação com usuários na forma de vídeos, avatares ASL e legendas em inglês. A questão mais importante era coletar mais dados para tecnologias de linguagem de sinais – o principal gargalo dos levantamentos anteriores.

Para abrir caminho para os avanços tecnológicos, era fundamental entender como os usuários com deficiência auditiva gostariam que fosse a interação com os dispositivos e que tipo de comandos eles gostariam de emitir. Abraham e a equipe montaram uma videoconferência em que um intérprete de ASL participava da chamada sem ser visto na câmera. A tela do dispositivo seria visualizada na janela da chamada e cada participante foi orientado por um moderador da pesquisa. Conforme os participantes com surdez se conectavam ao dispositivo doméstico, eles não sabiam que o intérprete de ASL estava falando os comandos em inglês. Uma equipe de anotadores assistiu à gravação, identificando segmentos-chave dos vídeos e transcrevendo cada comando para o inglês e o glossário ASL.

Abraham conseguiu identificar novas maneiras de os usuários interagirem com o dispositivo, como comandos de “despertar” que não foram capturados em pesquisas anteriores.

Capturas de tela de vários sinais de “despertar” produzidos pelos participantes durante o estudo conduzido remotamente por pesquisadores do Rochester Institute of Technology. Os participantes estavam interagindo com um dispositivo de assistente pessoal, usando comandos de ASL que foram traduzidos por um intérprete escondido, e usaram espontaneamente uma variedade de sinais de ASL para ativar o dispositivo de assistente pessoal antes de dar cada comando. Os sinais aqui incluem exemplos rotulados como: (a) HELLO, (b) HEY, (c) HI, (d) CURIOUS, (e) DO-DO e (f) A-L-E-X-A.

Além disso, um resumo das categorias e frequências de comando mostrou que a categoria mais popular era “comando e controle”, onde os usuários ajustam as configurações do dispositivo, navegam pelos resultados e respondem perguntas com sim ou não. A próxima categoria popular estava relacionada a questões de entretenimento, seguidas por estilo de vida e compras. Os participantes também fizeram uso sofisticado dos espaços ao redor de seus corpos, por exemplo, para representar e se referir a pessoas ou coisas que eram o tema de suas perguntas. Outra observação foi o uso de um sinal de interrogação no início de perguntas, para chamar a atenção do dispositivo, enquanto tipicamente esse sinal é mais utilizado no final das perguntas. Quando se tratava de erros, como o dispositivo não fornecer o resultado que os usuários estavam procurando, eles normalmente ignoravam o erro e continuavam com um comando diferente. Um segundo método próximo era repetir o comando com exatamente o mesmo estilo de redação e assinatura, seguido de reformulação do comando. Por exemplo, alguns reformularam suas perguntas para serem mais parecidas com o idioma inglês, ou soletrando palavras para enfatizar as novas tentativas.

Um artigo com os detalhes completos da pesquisa foi apresentado e publicado no Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems, com o título “Analisando o comportamento, o uso e a interação de usuários com deficiência auditiva com um dispositivo pessoal que entende a linguagem de sinais” (Analyzing Deaf and Hard-of-Hearing Users’ Behavior, Usage, and Interaction with a Personal Assistant Device that Understands Sign-Language Input, no original em inglês) por Abraham Glasser, Matthew Watkins, Kira Hart, Sooyeon Lee e Matt Huenerfauth.

O conhecimento reunido por meio dessa pesquisa foi a base para a construção de um conjunto de dados de vídeos de pessoas com deficiência auditiva produzindo comandos em ASL e interagindo com seus dispositivos pessoais – como perguntar sobre o clima, controlar eletrônicos em sua casa e muito mais. Ao usar pesquisas e entrevistas para coletar preferências e requisitos desses usuários, foram reunidos vídeos de comandos ASL, levando à produção de um conjunto de dados disponível publicamente que pode ser aproveitado pela comunidade de pesquisa para treinar tecnologias de reconhecimento de ASL. O conjunto de dados também pode ser útil para desenvolvedores de tecnologias de assistentes pessoais e para desenvolvedores e pesquisadores que trabalham com tecnologias de linguagem de sinais.

Embora ainda existam muitas oportunidades pela frente para inovar e incorporar linguagens de sinais na tecnologia, o trabalho que Abraham e sua equipe realizaram nos últimos três anos representa um marco importante para promover ainda mais a inovação em acessibilidade e garantir a inclusão para todos.

A oportunidade em casa – a IA pode impulsionar a inovação em dispositivos pessoais e em linguagem de sinais?

Posts Relacionados