Ir para a página inicial
Alex Kipman com o HoloLens 2 na cabeça.

HoloLens 2: como a IA avançada deu forma à ideia de computação onipresente da Microsoft

Na primeira vez em que as pessoas colocam o novo HoloLens 2 em suas cabeças, o dispositivo os conhece automaticamente: mede tudo, desde o formato preciso das mãos até a distância exata entre os olhos.

A pesquisa e o desenvolvimento de inteligência artificial que permitiram chegar a esses recursos “foram surpreendentemente complicados”, mas essenciais para tornar “instintiva” a experiência de usar o dispositivo, disse Jamie Shotton, cientista parceiro que lidera a equipe científica do HoloLens em Cambridge, Reino Unido.

“Queremos que você saiba como usar o HoloLens sem ter de ser ensinado”, disse ele. “Nós sabemos como interagir com as coisas no mundo físico real: pegamos, pressionamos os botões, apontamos para elas. Nosso objetivo, tanto quanto possível, é traduzir isso diretamente em realidade mista.”

A Microsoft anunciou que o HoloLens 2 já está sendo enviado aos clientes. O headset de computação holográfica repleto de sensores usa a IA para deslocar o espaço e o tempo, criando uma realidade mista de pessoas, lugares e coisas, a fim de facilitar um de nossos impulsos humanos mais básicos: a troca de conhecimento.

Alex Kipman, Technical Fellow da Microsoft, disse que o headset define a marca mais alta dos dispositivos inteligentes de fronteira – tecnologias habilitadas para IA que podem coletar e processar dados mesmo sem uma conexão confiável à internet –, que podem compartilhar alguns ou todos esses dados com a nuvem inteligente quando conectados.

Recentemente, Kipman esboçou um diagrama dessa malha de computação onipresente em um quadro branco digital em seu escritório.

“O HoloLens”, disse ele, “é o primeiro dispositivo nativo a ser inventado do zero, com essa visão de mundo em mente.”

O casamento da IA no HoloLens 2 com os recursos de IA do Azure, a plataforma de computação em nuvem da Microsoft, permite que empregados que trabalham com as mãos aprendam habilidades que aprimoram suas carreiras e possibilitam às pessoas em extremos opostos da Terra, que falam idiomas diferentes, colaborar com um senso compartilhado de presença física.

“Você pode fazer coisas realmente interessantes com o HoloLens, e fazer coisas realmente interessantes com a nuvem”, disse Julia White, vice-presidente corporativa de Marketing do Azure. “Mas quando você vê essas duas coisas juntas, isso muda o jogo em termos do que as pessoas realmente podem fazer.”

Entregando realidade mista com IA

Para permitir interações instintivas com o HoloLens 2, Shotton e seus colegas desenvolveram, treinaram e implantaram modelos de IA no dispositivo que rastreia os movimentos das mãos e dos olhos das pessoas, para que, por exemplo, eles percebam um holograma flutuando na frente deles e possam redimensioná-lo ou reposicioná-lo.

Para criar o sistema de rastreamento de mãos, a equipe construiu uma plataforma com uma cúpula de câmeras apontando para dentro em que costumava gravar uma variedade de mãos. Em seguida, a equipe usou o processamento em nuvem offline para criar um modelo 3D capaz de representar todas as formas e movimentos das mãos humanas.

A partir desse modelo 3D, a equipe pôde usar gráficos de computador para renderizar imagens realistas e sintéticas das mãos, juntamente com etiquetas sintéticas, para tornar o modelo robusto em uma variedade de formas, poses e movimentos de mãos.

“Você pode gerar quantidades efetivamente ilimitadas de dados de treinamento”, disse Shotton.

A equipe usou esses dados para treinar uma rede neural profunda compacta, um tipo de algoritmo de IA, que se encaixa no processador de bordo do HoloLens e roda com eficiência em todos os quadros provenientes do sensor de profundidade do dispositivo.

Quando um novo cliente coloca um HoloLens 2, o sistema usa essa rede neural para ajudar a ajustar um modelo 3D personalizado às mãos do cliente, permitindo o rastreamento preciso necessário para permitir a interação instintiva com os hologramas.

A equipe de Shotton adotou uma abordagem semelhante para criar e treinar o modelo de rastreamento ocular, prestando muita atenção ao que é chamado de distância interpupilar, ou a distância entre os centros das pupilas dos olhos, que varia entre as pessoas e afeta a maneira como alguém vê objetos próximos ou distantes.

O resultado é um modelo de rastreamento ocular que permite que o HoloLens 2 exiba com precisão hologramas na frente dos clientes para interação e manipulação com as mãos e os olhos.

“Sem rastreamento ocular, alinhar hologramas com o mundo real – especialmente a mão física da pessoa – seria impossível com o nível de precisão necessário para permitir a interação instintiva”, disse Shotton.

Mão de homem interagindo com um holograma de beija-flor.
Os modelos de IA implantados no HoloLens 2 permitem que os clientes interajam instintivamente com os hologramas.

IA na fronteira para a nuvem

Os recursos de rastreamento manual e ocular, associados a outros recursos inteligentes, como localização e mapeamento simultâneos, necessários para fazer com que os hologramas pareçam fixados ao mundo à medida que a pessoa se move, estão incorporados ao HoloLens 2 no chip personalizado de segunda geração chamado unidade de processamento holográfico ou HPU 2.0.

Kipman chama esse tipo de recurso de IA no dispositivo de percepção de IA.

“Percepção é como cérebro de réptil”, disse ele. “É a realização daquelas operações que seu cérebro faz que são instintivas, nas quais você não pensa.”

Para as pessoas, esse tipo de inteligência mantém nossos corações batendo, nossos pulmões respirando e nossos olhos realizando microssacadas para medir a profundidade de campo, por exemplo. Quando estamos com sede e queremos um gole de água, nossos olhos medem instintivamente a distância até o copo d’água que nossas mãos levantam para nossos lábios.

A percepção de IA no HoloLens 2 permite que as pessoas manipulem e interajam com hologramas sem se preocupar com o que é chamado de latência – normalmente as centenas de milissegundos necessários para os dados viajarem para a nuvem, serem processados ​​e retornarem à fronteira.

“Mesmo dezenas de milissegundos fazem uma diferença perceptiva significativa” ao pressionar um botão em um holograma, por exemplo, ou rolar o texto em um holograma com seus olhos, observou Shotton. “Esse tempo de resposta é crítico.”

As preocupações com a privacidade são outro motivo para fazer cálculos de IA localmente em um dispositivo; as varreduras de íris que o HoloLens 2 executa para autenticar clientes são o tipo de dado pessoal que as pessoas podem não querer enviar para a nuvem.

No entanto, para muitos outros tipos de dado, há uma vantagem em enviá-los para a nuvem: uma vez lá, o cliente pode aproveitar o Azure AI e os serviços de realidade mista e combinar os dados do dispositivo com dados de toda a malha de computação onipresente. Isso permite computação ou cognição mais avançadas, disse Kipman.

Os componentes do HoloLens 2.
Os componentes do HoloLens 2. (Foto: Microsoft)

Colaboração na nuvem

Uma vantagem importante da computação holográfica inteligente baseada em nuvem é a capacidade de compartilhar informações com outras pessoas que possuam um HoloLens ou outro dispositivo com recursos semelhantes, disse Marc Pollefeys, diretor do laboratório de Realidade Mista e IA da Microsoft em Zurique, Suíça.

Pollefeys lidera uma equipe que desenvolve os principais algoritmos de visão computacional para um serviço de nuvem de realidade mista chamado Azure Spatial Anchors, que permite que os hologramas persistam, bloqueados no mundo real, para qualquer pessoa com o nível de acesso adequado para visualização.

Por exemplo, a tecnologia de âncora espacial permite que um gerente de fábrica coloque hologramas ao lado de equipamentos em uma linha de montagem, contendo informações vitais de operação e manutenção em tempo real, que qualquer trabalhador credenciado com um dispositivo de realidade mista possa acessar.

“Se eu só puder colocar as informações que verei no meu dispositivo, provavelmente nunca valerá a pena colocar hologramas no mundo, mas se eu puder anotar o mundo e depois qualquer outra pessoa na empresa que tenha o acesso correto possa ver todas as informações, de repente, é muito mais valioso”, disse Pollefeys.

Para criar esse recurso, Pollefeys e sua equipe desenvolveram algoritmos de visão computacional da IA que processam dados de sensores para extrair informações geométricas 3D sobre o ambiente e reuni-las na nuvem para criar um gêmeo digital, ou mapa, da área de interesse.

O HoloLens sempre criou uma compreensão 3D ou espacial de seu ambiente para funcionar. As âncoras espaciais do Azure criam, refinam e compartilham esses mapas entre dispositivos, observou Pollefeys. É por isso que os mapas de dispositivos individuais são reunidos e armazenados na nuvem.

“Não faz sentido ter esses dados apenas em um dispositivo individual”, disse ele. “É uma daquelas coisas em que tenho um pequeno pedaço do quebra-cabeça, e outra pessoa tem um pequeno pedaço do quebra-cabeça, e todos os dispositivos juntos cobrem todo o espaço de interesse.”

Esses mapas ficam mais densos, precisos e robustos ao longo do tempo, à medida que diferentes dispositivos compatíveis com realidade mista – HoloLens e telefones, tablets e laptops adequadamente equipados – mapeiam seu ambiente e compartilham os dados com a nuvem.

Por exemplo, o mapa do chão de fábrica em que o gerente deixou hologramas flutuando sobre peças de equipamento na linha de montagem é constantemente refinado à medida que mais e mais trabalhadores credenciados veem os hologramas com seus dispositivos.

Esse recurso também permite cenários como uma reunião entre arquitetos e clientes em que eles visualizam e interagem com um modelo 3D holográfico de um edifício, cada um deles com dispositivos compatíveis com realidade mista que olham o modelo do seu próprio ponto de vista enquanto estão sentados ao redor de uma mesa.

O Azure contém serviços criados previamente para escrever aplicativos para esses tipos de experiência no HoloLens e em qualquer outro dispositivo de realidade mista, incluindo smartphones e tablets executando os sistemas operacionais iOS e Android, observou White.

“Essa experiência de colaboração não está restrita ao HoloLens”, disse ela. “E o custo, a complexidade e o conjunto de habilidades necessárias para criar um aplicativo que faça algo incrível são muito baixos.”

O recurso para vários dispositivos e plataformas, por exemplo, permite experiências como o Minecraft Earth, que mescla o popular videogame com a realidade mista, de maneira que os jogadores possam construir e colocar no mundo real estruturas virtuais que persistam para que outros jogadores possam interagir com eles em seus dispositivos.

“Todos nós participamos porque é baseado no uso de tecnologia em nuvem que pode ser entendida e interpretada por todos os dispositivos”, disse White.

Tecnologia projetada para pessoas

Para que o HoloLens funcione como previsto, a tecnologia que sustenta a experiência precisa entender o mundo de formas semelhantes às das pessoas, observou Kipman.

É por isso que ele e seus colaboradores da Microsoft desenvolveram, implantaram e alavancaram soluções de IA em todo a malha de computação onipresente, desde o silício no headset do HoloLens 2 até a IA do Azure e os serviços de realidade mista.

De volta ao seu quadro digital, Kipman agora esboçou uma visão para a computação onipresente, repleta de palavras, caixas, setas – e uma figura de duas pessoas conversando ao lado de um dispositivo inteligente.

Esse, ele diz, é o objetivo final da computação onipresente – fazer com que as pessoas interajam com outras pessoas de maneira natural.

Para esclarecer o assunto, ele estabelece um momento de contato visual intenso e deliberado e diz: “Espero que você esteja aproveitando mais essa conversa porque está fisicamente presente comigo”.

“Poderíamos ter feito isso por telefone”, continua ele. “Poderíamos ter feito isso pelo Skype. Eu poderia ter gravado e enviado uma fita para você. Você não escolheu fazer isso. Você escolheu estar fisicamente presente comigo. Por quê? Porque é assim que fazemos as coisas humanas.”

“A desvantagem é que você tem que estar aqui ao mesmo tempo em que eu estou, e nós temos de estar no mesmo local. O poder dessa tecnologia é que ela nos dá a capacidade de deslocar o espaço e o tempo.”

Imagem superior: Alex Kipman, Technical Fellow da Microsoft, usa o HoloLens 2, headset de computação holográfica. (Foto: Microsoft)

John Roach escreve sobre pesquisa e inovação da Microsoft. Siga-o no Twitter.