Ir para a página inicial
Project Tokyo

Com IA, pessoas cegas conseguem identificar rostos familiares em uma sala

Em um dia nublado de dezembro, Theo, um garoto cego britânico de 12 anos, encontra-se sentado à mesa em uma cozinha cheia de pessoas. Em sua cabeça, uma faixa com câmeras, um sensor de profundidade e fones que encostam em seus cabelos castanhos. Ele gira a cabeça para a esquerda e direita até a câmera frontal apontar para o nariz de alguém posicionado do outro lado de um balcão.

Ele ouve um som alto, seguido do nome “Martin”, nos fones.

“Levei cinco segundos para te encontrar, Martin”, diz o garoto com a cabeça e o corpo fixos na direção de Martin Grayson, engenheiro sênior de desenvolvimento de software de pesquisa no laboratório da Microsoft em Cambridge. Grayson está ao lado de um baú preto que contém o hardware necessário para executar os modelos de aprendizado de máquina que alimentam o protótipo que Theo usa para reconhecê-lo.

Elin, a mãe dele, está de pé contra uma parede no lado oposto do cômodo. Ela diz: “Adoro o jeito que você se virou para encontrá-lo. É tão legal”.

Quando Theo começa a se virar para encarar a mãe, os fones emitem outro som seguido do nome “Tim”.

“Tim, aí está você”, diz o jovem, encantado, enquanto olha fixamente para Tim Regan, outro engenheiro sênior do laboratório. Foi ele pediu para colocar Theo sob sua tutela para ensinar-lhe programação avançada.

Elin e o garoto estavam na casa de Regan para uma aula de programação bimensal. Eles se conheceram enquanto trabalhavam em um projeto de pesquisa que levou ao desenvolvimento do Code Jumper, uma linguagem de programação física inclusiva para crianças com problemas de visão de severidade variada.

O jovem é um dos vários membros da comunidade cega, ou de pouca visão, que estão trabalhando com Regan, Grayson, a pesquisadora Cecily Morrison e a equipe do Project Tokyo – um esforço multidisciplinar para criar a tecnologia de agente pessoal que usa inteligência artificial (IA) para ampliar os sentidos das pessoas.

Para Theo, isso significa obter novas ferramentas para reconhecer quem está ao seu redor.

“É muito empolgante descobrir onde estão as pessoas dentro do meu ambiente”, disse Theo. “Não se trata apenas de identificar quem quer conversar, mas também todas as outras pessoas que preferem ficar quietas em seus cantos. Como alguém com visão normal, você as identifica pelo rosto. Eu não posso fazer isso”.

Em última análise, observou Morrison, o Project Tokyo é um esforço de pesquisa com um objetivo de longo prazo de demonstrar como é possível criar agentes pessoais inteligentes que ampliam os sentidos dos usuários. Em vez de criar sistemas ponta a ponta que podem realizar tarefas específicas, ela vê o futuro da IA como um conjunto de recursos que as pessoas usam da maneira que bem entenderem.

“De repente, não precisamos dizer: ‘Ei, você é cego e eu apenas disponibilizei isso para você.’ Dizemos: ‘Ei, você é você. Acabamos de criar um sistema que funciona para você’” afirma. “Não preciso saber nada sobre você. Eu não preciso de um rótulo. Posso fazer algo certo para você, pois tenho um sistema capaz de adaptar a si mesmo”.

Project Tokyo
Martin Grayson, à esquerda, engenheiro sênior de desenvolvimento de software de pesquisa no laboratório de pesquisa da Microsoft em Cambridge, Reino Unido, registra a pesquisadora da Microsoft Cecily Morrison, à direita, no sistema Project Tokyo para testes de usuários. Foto de Jonathan Banks.

Paraolimpíadas no Brasil

 O Project Tokyo nasceu em 2016 a partir de um desafio de líderes seniores da Microsoft para criar sistemas de IA que iriam além da conclusão de tarefas como a obtenção de resultados esportivos e previsões do tempo, ou mesmo a identificação de objetos. Morrison disse que a criação de ferramentas para pessoas cegas e com baixa visão é um ajuste natural para o projeto, pois as pessoas com deficiência são, frequentemente, as primeiras a adotar novas tecnologias.

“Não se trata de dizer que vamos construir algo para pessoas cegas”, disse Morrison. “Estamos trabalhando com pessoas cegas para nos ajudar a imaginar o futuro, e esse futuro é sobre novas experiências com a IA”.

Morrison e seu colega Ed Cutrell, principal pesquisador do laboratório da Microsoft em Redmond, foram convocados para liderar o projeto. Ambos possuem experiência em projetar tecnologias com pessoas cegas ou com baixa visão, e decidiram começar tentando compreender como uma solução de agente poderia ampliar a capacidade desses usuários.

Para começar, eles acompanharam um grupo de atletas e espectadores com diferentes níveis de visão em uma viagem do Reino Unido para os Jogos Paraolímpicos de 2016 no Rio de Janeiro, Brasil. Observaram como eles interagiam com outras pessoas enquanto navegavam em aeroportos, frequentavam locais esportivos e passeaavam, entre outras atividades. Um aprendizado importante, observou Cutrell, como uma compreensão enriquecida do contexto social que poderia ajudar pessoas cegas ou com baixa visão a entender seu ambiente.

“Nós, como seres humanos, temos esse senso social muito, muito matizado e elaborado de como interagir com as pessoas – ter uma noção de quem está na sala, o que eles estão fazendo, qual é o relacionamento deles comigo, como eu entendo se são relevantes para mim ou não ”, afirmou. “E para os cegos, muitas das dicas que tomamos como garantidas desaparecem”.

Esse entendimento estimulou uma série de workshops com a comunidade de cegos e pessoas com baixa visão, focados em possíveis tecnologias que pudessem fornecer tal experiência. Peter Bosher, um engenheiro de áudio com mais de 50 anos que ficou cego e trabalhou com a equipe do Project Tokyo, disse que o conceito de uma tecnologia que fornece informações sobre as pessoas ao seu redor ressoou imediatamente.

“Sempre que estou em uma situação com mais de duas ou três pessoas, especialmente se não conheço algumas delas, fica exponencialmente mais difícil lidar com elas. O uso do contato visual e linguagem corporal para sinalizar que desejam falar com tal e qual pessoa é realmente muito difícil para os cegos”, aponta.

Project Tokyo
Ed Cutrell, pesquisador principal da organização de pesquisa da Microsoft em Redmond, Washington, é co-líder do Projeto Tóquio. Em sua mesa estão vários Microsoft HoloLenses modificados que os pesquisadores do projeto estão usando para ajudar pessoas cegas e com baixa visão a aprender quem está em seu ambiente social. Foto de Dan DeLong.

Um HoloLens modificado

Depois que os pesquisadores do Project Tokyo entenderam o tipo de experiência de IA que eles queriam criar, começaram a construir a tecnologia capacitadora. Iniciaram com o Microsoft HoloLens original, um fone de ouvido de realidade mista que projeta hologramas no mundo real que os usuários podem manipular.

“O HoloLens nos fornece uma tonelada do que precisamos para criar um agente de IA em tempo real que possa comunicar o ambiente social”, disse Grayson durante uma demonstração da tecnologia no laboratório de pesquisa da Microsoft em Cambridge.

Por exemplo, o dispositivo possui uma variedade de câmeras em escala de cinza que fornecem uma visão de quase 180 graus do ambiente, além de uma câmera colorida de alta resolução para reconhecimento facial de alta precisão. Além disso, os alto-falantes acima dos ouvidos do usuário permitem a execução de áudio espacializado – criação de sons que parecem vir de locais específicos ao redor do usuário.

Os especialistas em aprendizado de máquina da equipe do Project Tokyo desenvolveram algoritmos de visão por computador que fornecem níveis variados de informações sobre quem está no ambiente do usuário. Os modelos são executados em unidades de processamento gráfico, conhecidas como GPUs, que estão alojadas no baú preto que Grayson levou para a casa de Regan e fazer os testes com Theo.

Um modelo, por exemplo, detecta a pose de pessoas no ambiente, que fornece uma sensação de onde e quão longe as pessoas estão do usuário. Outro analisa o fluxo de fotos da câmera de alta resolução para reconhecer as pessoas e determinar se elas optaram por divulgar seus nomes ao sistema. Toda essa informação é transmitida ao usuário através de dicas de áudio.

Por exemplo, se o dispositivo detectar uma pessoa a um metro de distância no lado esquerdo do usuário, o sistema emitirá um clique que parece estar vindo de um metro de distância à esquerda. Se o sistema reconhecer o rosto da pessoa, ele emitirá um som de impacto e, se essa pessoa também for conhecida pelo sistema, anunciará seu nome.

Quando o usuário ouve apenas um clique, mas quer saber quem é a pessoa, uma segunda camada de som que se assemelha a um alongamento de elástico orienta o olhar do usuário em direção ao rosto da pessoa. Quando a câmera central da lente se conecta ao nariz da pessoa, o usuário ouve um clique agudo e, se a pessoa é conhecida pelo sistema, seu nome.

“Eu particularmente gosto do que dá a você o ângulo de visão, porque nunca tenho certeza de qual é o ângulo sensível da sua cabeça”, disse Bosher, que trabalhou com a equipe do Project Tokyo na experiência de áudio no início do processo de design e retornou ao laboratório de Cambridge para discutir sua experiência e verificar a iteração mais recente. “Isso seria uma ótima ferramenta para aprender a linguagem corporal”.

Project Tokyo
Peter Bosher, meio, um engenheiro de áudio cego que trabalhou com a equipe do Project Tokyo no início do processo de design, verifica a última iteração do sistema no laboratório de pesquisa da Microsoft em Cambridge, Reino Unido, com os pesquisadores Martin Grayson, à esquerda, e Cecily Morrison, certo. Foto de Jonathan Banks.

Prototipagem com adultos

Como a equipe do Project Tokyo desenvolveu e evoluiu a tecnologia, os pesquisadores costumam convidar adultos cegos ou com baixa visão para testar o sistema e fornecer feedback. Para facilitar uma interação social mais direta, por exemplo, a equipe removeu as lentes da frente do HoloLens.

Vários usuários expressaram o desejo de obter discretamente as informações coletadas pelo sistema sem virar constantemente a cabeça, o que parecia socialmente estranho. O feedback levou a equipe do Project Tokyo a trabalhar em recursos que ajudam os usuários a aprender rapidamente quem está ao seu redor, por exemplo, solicitando uma visão geral e obtendo uma leitura espacial de todos os nomes de pessoas que deram permissão para serem reconhecidas pelo sistema.

Outro recurso experimental alerta o usuário com um toque espacial quando alguém está olhando para ele, porque pessoas com visão típica geralmente estabelecem contato visual para iniciar uma conversa. Ao contrário do galo, no entanto, o carrilhão não é seguido por um nome.

“Nós já usamos o nome quando você olha para alguém”, explicou Grayson a Emily, uma testadora de 20 anos que tem baixa visão e visitou o laboratório de Cambridge para aprender sobre os recursos mais recentes. “Mas também, se não der o nome, te alertar sobre alguém que está tentando chamar sua atenção. E, voltando-se para ele, você descobre o nome”.

“Eu concordo totalmente com isso. É assim que as pessoas com visão reagem. Eles capturam alguém pelo canto dos olhos, você entende esse sentido e vai”, disse Emily.

O HoloLens modificado que os pesquisadores mostraram a Emily também incluiu uma faixa de LED afixada acima da faixa de câmeras. Uma luz branca rastreia a pessoa mais próxima do usuário e fica verde quando a pessoa foi identificada. O recurso permite que parceiros ou espectadores de comunicação saibam que foram vistos, tornando mais natural iniciar uma conversa.

A faixa de LED também oferece às pessoas a oportunidade de sair do campo de visão do dispositivo e não serem vistas, se assim o desejarem. “Quando você sabe que está prestes a ser visto, também pode decidir não ser visto”, observou Morrison.

Project Tokyo
Peter Bosher, fundo à esquerda, um engenheiro de áudio cego, confere a mais recente iteração do sistema Project Tokyo no laboratório de pesquisa da Microsoft em Cambridge, Reino Unido. Bosher usa um Microsoft HoloLens modificado que transmite imagens de seu campo visual para o hardware do computador para processamento. Um painel na tela do laptop mostra o campo visual. Os pesquisadores da Microsoft Cecily Morrison, à direita e à esquerda na tela, e Martin Grayson, à direita na tela, são visíveis aos HoloLens. Foto de Jonathan Banks.

Uma ferramenta para ensinar habilidades de interação social

À medida que o estudo técnico continua, o Project Tokyo está explorando uma vertente revelada no processo de pesquisa: o uso da tecnologia para ajudar crianças cegas ou com baixa visão a desenvolver habilidades de interação social.

Dois terços dessas crianças apresentam comportamentos sociais consistentes com as jovens que estão no espectro do autismo, de acordo com pesquisas acadêmicas. Por exemplo, muitas delas parecem desapegadas dos parceiros de conversação, frequentemente descansando a cabeça em uma mesa com o ouvido exposto.

Morrison e Cutrell pivotaram o Projeto Tóquio para explorar se uma versão reduzida do sistema poderia ser usada para ajudar crianças cegas ou com baixa visão a entender como elas podem usar seus corpos para iniciar e manter interações com as pessoas.

Como os pesquisadores da Microsoft já tinham um relacionamento com Theo, eles o recrutaram para ajudar a adaptar o sistema para funcionar com crianças, como explicar a tendência delas se sentarem próximas umas das outras e, ao mesmo tempo, não ficarem em silêncio.

“Quando anunciava o nome das pessoas, tentava anunciar dois nomes ao mesmo tempo e pedi que isso mudasse porque, basicamente, era muito, muito difícil ouvir o nome de alguém”, lembrou Theo.

Os pesquisadores também estudaram como Theo utilizou o sistema. Por exemplo, durante uma refeição em família, ele começou sutilmente, mas repetidamente, a mudar a cabeça de um lado para o outro para forçar o sistema a ler os nomes das pessoas com quem estava falando.

“Acreditamos que ele estava usando isso para apoiar sua atenção espacial em relação a uma pessoa, atualizando sua memória de trabalho de onde ela estava”, disse Morrison. “Isso é algo que nunca poderíamos ter previsto, mas uma estratégia muito poderosa para ajudá-lo a manter sua atenção e, se ele puder manter a atenção, ele poderá seguir um tópico de conversa”.

Outros usos da tecnologia estavam mais de acordo com a hipótese dos pesquisadores de que o ajudaria a desenvolver habilidades para interagir socialmente em um mundo dominado por pessoas que são avistadas.

Por exemplo, como outras crianças cegas ou com baixa visão, Theo colocava a cabeça na mesa durante situações sociais, uma orelha inclinada para o mundo. Os pesquisadores jogaram uma série de jogos com Theo, projetados para destacar o poder social que poderia surgir ao usar seu corpo e sua cabeça para dialogar com pessoas que são vistas.

Em um jogo jogado no laboratório, os pesquisadores tiveram um problema de grupo a resolver. Theo sabia a resposta. Os pesquisadores só conheciam o assunto e só podiam conversar quando Theo os olhava. Quando Theo desviou o olhar, eles tiveram que parar de falar.

“De repente, ele percebeu que podia gerenciar uma conversa”, disse Morrison. “Ele passou a entender o poder de olhar para alguém, o poder que lhe deu em uma conversa e, com isso, habilitou todo um novo conjunto de capacidades sociais que ele não era capaz de alcançar antes”.

Hoje, Theo raramente fala com a cabeça na mesa. Esteja usando o HoloLens modificado ou não, ele vira o corpo e o rosto na direção da pessoa que deseja envolver. Não se sabe se a mudança persistirá a longo prazo, nem os pesquisadores têm certeza se outras crianças cegas ou com baixa visão responderão da mesma forma.

“Pelo que estamos vendo com Theo, temos um bom pressentimento, porque já vimos com ele, mas esse é um caso. E quem sabe se isso teria acontecido de qualquer maneira”, disse Cutrell. “É por isso que estamos entrando na próxima fase, que analisará consideravelmente mais crianças e uma faixa etária mais ampla também”.

Project Tokyo
Sebastian Tschiatchek, pesquisador de aprendizado de máquina do laboratório de pesquisa da Microsoft em Cambridge, Reino Unido, está trabalhando em recursos que permitem às pessoas personalizar o sistema do Project Tokyo. Foto de Jonathan Banks.

Futuro do Projeto Tóquio

O esforço de pesquisa mais amplo do Project Tokyo continua a incluir novos direcionamentos  no aprendizado de máquina que permitem aos usuários adaptar o sistema às suas preferências pessoais. Sebastian Tschiatschek, um pesquisador de aprendizado de máquina do laboratório de Cambridge, está trabalhando em recursos que permitem aos usuários mostrar ao sistema o tipo e a quantidade de informações que desejam ouvir.

O desenvolvimento da personalização está exigindo que Tschiatschek adote uma abordagem não convencional ao aprendizado de máquina.

“O que gostamos de fazer é formalizar um problema de alguma forma matemática”, disse ele. “Você não pode fazer isso tão facilmente neste caso. Muito do desenvolvimento ocorre através da experimentação de coisas, interação com as pessoas, vendo o que elas gostam, não gostam e aprimorando os algoritmos”.

O desejo de personalização, explicou, existe porque as pessoas cegas ou com baixa visão têm diferentes níveis de visão e, portanto, diferentes necessidades de informação. Além disso, os usuários do sistema ficam frustrados quando fornecem informações que eles já conhecem.

“Para concluir a visão do Projeto Tóquio, é preciso combinar tantas coisas que ainda não foram resolvidas”, disse Tschiatschek.

Por fim, o Project Tokyo consiste em demonstrar como criar agentes pessoais inteligentes que ampliam os recursos de todos os usuários. Para chegar lá, Morrison, Cutrell e seus colegas continuarão trabalhando com pessoas cegas ou com baixa visão, incluindo mais crianças.

“O que vimos com Theo é bastante poderoso”, disse Morrison em seu escritório no dia seguinte ao teste do sistema na casa de Regan. “Foi poderoso porque ele estava no controle de seu mundo de uma maneira que ele não podia estar antes”.

Entre a expansão do grupo de crianças para participar do Projeto Tóquio está o filho de 7 anos de Morrison, Ronan, que é cego desde o nascimento. “Acho que vamos ver isso com Ronan”, acrescentou. “Estou super animado para tentar”.