Ir al contenido principal

La creación de HoloLens 2: Cómo la IA avanzada construyó la visión de Microsoft para el cómputo omnipresente

La primera vez que la gente se pone en sus cabezas los nuevos HoloLens 2, el dispositivo en automático llega a conocerlos: Mide todo desde la forma precisa de sus manos a la distancia exacta entre sus ojos.

La investigación y el desarrollo de inteligencia artificial que permitieron esas capacidades “fue bastante complicado” pero esencial en hacer “instintiva” la experiencia de utilizar el dispositivo, comentó Jamie Shotton, un científico asociado que lidera al equipo de ciencias de HoloLens en Cambridge, Reino Unido.

“Queremos que sepas cómo utilizar HoloLens sin tener que enseñarte cómo utilizarlo”, mencionó. “Sabemos cómo interactuar con cosas en el mundo real, físico: Recogemos cosas, oprimimos botones, apuntamos a cosas. Buscamos, en la medida de lo posible, traducir eso directo en la realidad mixta”.

Microsoft anunció que HoloLens 2 ha comenzado a entregarse a los clientes. La diadema de cómputo holográfico empacada con sensores utiliza IA para desplazar el espacio y el tiempo, para crear una realidad mixta de las personas, lugares y cosas para facilitar uno de los impulsos humanos más básicos: intercambiar conocimiento.

Alex Kipman, asociado técnico de Microsoft, comentó que la diadema define la marca de agua más alta de los dispositivos del entorno inteligente – tecnologías capaces para IA que pueden recolectar y procesar datos incluso sin una conexión confiable a internet – y que luego puedan compartir algunos o todos los datos con la nube inteligente cuando estén conectados.

Hace poco, Kipman dibujó un diagrama de este tejido de cómputo omnipresente en una pizarra blanca digital en su oficina.

“HoloLens”, comentó, “es el primer dispositivo nativo en ser inventado desde cero con esta visión mundial en mente”.

El enlace de la IA en HoloLens 2 con las capacidades de IA de Azure, la plataforma de cómputo en la nube de Microsoft permite a los trabajadores prácticos y de cabeza levantada aprender habilidades que les permitan avanzar en sus carreras, y hace posible para las personas en extremos opuestos de la Tierra que hablan diferentes idiomas, colaborar con un sentido compartido de presencia física.

“Puedes hacer cosas en verdad interesantes con HoloLens, y puedes hacer cosas en verdad interesantes con la nube”, comentó Julia White, vicepresidenta corporativa de mercadotecnia de Azure en Microsoft. “Pero cuando ves que estas dos cosas se reúnen, esto cambia el juego en términos de lo que la gente puede en verdad hacer”.

Entregar realidad mixta con IA

Para permitir las interacciones instintivas con HoloLens 2, Shotton y sus colegas desarrollaron, entrenaron e implementaron modelos de IA en el dispositivo que rastrea los movimientos de manos y ojos de las personas para que, por ejemplo, puedan percibir a un holograma que flota frente a ellos y tomarlo para cambiar su tamaño y posición.

Para crear el sistema de rastreo de manos, el equipo construyó una plataforma con una cúpula de cámaras que apuntan hacia adentro que utilizaron para grabar un rango diverso de manos de personas. Luego el equipo utilizó procesamiento en la nube sin conexión para construir un modelo 3D capaz de representar todas las formas y movimientos de las manos humanas.

A partir de este modelo 3D, el equipo pudo utilizar los gráficos computacionales para procesar imágenes realistas y sintéticas de manos junto con etiquetas sintéticas para hacer al modelo más robusto a través de una variedad de formas, poses y movimientos de manos.

“Puedes generar de manera efectiva cantidades ilimitadas de datos de entrenamiento”, comentó Shotton.

El equipo utilizó estos datos para entrenar una red neural compacta profunda, un tipo de algoritmo de IA, que se ajusta en el procesador interno de HoloLens, y corre de manera eficiente en cada cuadro que viene del sensor de profundidad del dispositivo.

Cuando un nuevo cliente se pone HoloLens 2, el sistema utiliza esta red neural para ayudar a ajustar un modelo personalizado 3D a las manos del cliente, para permitir el rastreo preciso requerido para permitir la interacción instintiva con hologramas.

El equipo de Shotton tomó un enfoque similar para construir y entrenar al modelo de rastreo ocular, y tomó especial atención a lo que es llamado distancia Inter pupilar, o la distancia entre los centros de las pupilas de los ojos, la cual varía entre las personas y afecta en cómo una persona ve objetos cercanos o distantes.

El resultado es un modelo de rastreo ocular que permite al HoloLens 2 proyectar de manera precisa hologramas frente a los clientes para la interacción y manipulación con sus manos y ojos.

“Sin el rastreo ocular, alinear hologramas al mundo real – en especial la mano física de una persona – sería imposible para el nivel de precisión requerido para permitir una interacción instintiva”, comentó Shotton.

Los modelos de IA implementados en HoloLens 2 permiten a los clientes interactuar de manera instintiva con hologramas. Animación de Microsoft. (La animación no tiene sonido)

IA en el entorno y hacia la nube

Las capacidades de rastreo ocular y de manos, junto con otras funciones inteligentes como localización y mapeo simultáneos que son necesarias para hacer que los hologramas aparezcan anclados al mundo mientras una persona se desplaza, están integrados en HoloLens 2, en el chip personalizado de segunda generación llamado unidad de procesamiento holográfico, o HPU 2.0.

Kipman llama a esta clase de capacidad de IA en el dispositivo como IA de percepción.

“La percepción es como el cerebro de los reptiles”, mencionó. “Realiza esas operaciones que tu cerebro realiza que son instintivas, en las cuales no piensas”.

Para las personas, este tipo de inteligencia mantiene el latido de nuestros corazones, la respiración de nuestros pulmones y la realización de microsacaplicaciones por parte de nuestros ojos para medir la profundidad de campo, por ejemplo. Cuando tenemos sed y queremos un sorbo de agua, nuestros ojos de manera instintiva miden la distancia al vaso de agua que nuestros labios elevan hacia nuestros labios.

La IA de percepción en HoloLens 2 permite a las personas manipular e interactuar con hologramas sin tener que preocuparse de lo que se conoce como latencia – por lo general los cientos de milisegundos que toma a los datos viajar a la nube, ser procesados y regresados al entorno.

“Incluso decenas de milisegundos hacen un diferencia perceptual significativa” cuando se oprime, por ejemplo, un botón en un holograma, o cuando se desplazan por el texto en un holograma con sus ojos, comentó Shotton. “Ese tiempo de respuesta es crítico”.

Las preocupaciones referentes a la privacidad son otra razón para realizar cálculos de IA de manera local en un dispositivo; los escaneos de iris que realiza HoloLens 2 para autenticar a los clientes son el tipo de datos personales que la gente tal vez no quiera enviar a la nube.

Para muchos otros tipos de datos, sin embargo, hay una ventaja en enviarlos a la nube: Una vez ahí, el cliente puede aprovechar los servicios de Azure AI y de realidad mixta y combinar los datos de su dispositivo con datos de todo el tejido omnipresente de cómputo. Esto permite un cálculo o cognición más avanzados, mencionó Kipman.

Los componentes de HoloLens 2. Foto por Microsoft.

Colaboración en la nube

Una ventaja clave del cómputo holográfico inteligente impulsado por la nube es la capacidad de compartir información con otras personas que tienen HoloLens u otro dispositivo con capacidades similares, comentó Marc Pollefeys, director de realidad mixta de Microsoft y del AI Zurich Lab en Suiza.

Pollefeys lidera a un equipo que desarrolla algoritmos centrales de visión de cómputo para un servicio de nube de realidad mixta llamado Azure Spatial Anchors que permite que los hologramas persistan, bloqueados en el mundo real, para cualquier persona con el nivel adecuado de acceso para verlos.

Por ejemplo, la tecnología de anclado espacial permite a un gerente en una fábrica colocar hologramas junto al equipo en la línea de ensamblaje que contengan información vital y en tiempo real de operación y mantenimiento a la que cualquier trabajador con las credenciales adecuadas pueda acceder a través de un dispositivo capacitado para la realidad mixta.

“Si solo puedo colocar información que veré en mi dispositivo, es probable que no valga la pena colocar hologramas en el mundo, pero si puedo anotar el mundo y luego cualquiera en la compañía que tenga el acceso correcto puede ver toda la información, de pronto tiene mucho más valor”, comentó Pollefeys.

Para crear esta capacidad, Pollefeys y su equipo desarrollaron algoritmos de visión de cómputo de IA que procesan datos de sensores para extraer información geométrica en 3D sobre el entorno y las acomodan en la nube para crear un gemelo digital, o mapa, del área de interés.

HoloLens siempre ha construido un entendimiento espacial 3D de su entorno para funcionar. Azure Spatial Anchors crea, refina y comparte esos mapas entre dispositivos, aclaró Pollefeys. Es por eso que los mapas de dispositivos individuales se acomodan y se almacenan en la nube.

“No hace sentido tener todos esos datos sólo en un dispositivo individual”, comentó. “Es una de esas cosas en las que tengo una pequeña pieza de un rompecabezas, y alguien más tiene una pequeña pieza del rompecabezas, y todos los dispositivos juntos han cubierto todo el espacio de interés”.

Estos mapas se vuelven más densos, más precisos y robustos con el tiempo, conforme diferentes dispositivos capacitados para la realidad mixta – HoloLens, así como teléfonos, tabletas y laptops equipados de manera apropiada – mapean su entorno y comparten los datos con la nube.

Por ejemplo, el mapa del piso de producción donde el gerente deja hologramas que flotan sobre piezas de equipo en la línea de ensamblaje se refina de manera constante conforme más y más trabajadores con las credenciales adecuadas ven los hologramas con sus dispositivos.

Esta capacidad también habilita escenarios como una reunión entre arquitectos y clientes para ver e interactuar con un mapa holográfico 3D de un edificio, cada uno de ellos con dispositivos capacitados para realidad mixta para ver el mapa desde su propio punto de vista mientras están sentados alrededor de una mesa.

Azure contiene servicios preconstruidos para escribir aplicaciones para ese tipo de experiencias en HoloLens y otros dispositivos de realidad mixta, incluidos smartphones y tabletas que corren sistemas operativos iOS y Android, anotó White.

“Esa experiencia de colaboración no está bloqueada sólo para HoloLens”, mencionó. “Y, el costo y complejidad y conjunto de habilidades requeridas para hacer una aplicación que hace algo increíble son muy bajos”.

Por ejemplo, la capacidad de plataforma y trabajo entre dispositivos, habilita experiencias como Minecraft Earth, que mezcla al popular videojuego con realidad mixta de una manera que los jugadores pueden construir y colocar estructuras virtuales en el mundo real que persisten, para que otros jugadores puedan interactuar con ellas desde sus propios dispositivos.

“Todos podemos participar porque está basado en utilizar tecnología de nube que puede ser entendida e interpretada por todos los diferentes dispositivos”, comentó White.

Tecnología que está diseñada para las personas

Para que HoloLens funcione como se ha previsto, la tecnología que sustenta la experiencia necesita entender al mundo en maneras que son similares a la manera en que la gente lo hace, comentó Kipman.

Es por eso que él y sus colaboradores de Microsoft han desarrollado, desplegado y aprovechado soluciones IA a través del tejido omnipresente de cómputo, desde el silicio en la diadema de HoloLens 2 a los servicios de Azure AI y de realidad mixta.

De vuelta a su pizarra blanca digital, Kipman ahora a bocetado una visión para el cómputo omnipresente que está plagada de palabras, cajas, flechas – y una imagen de dos personas tipo palitos y bolitas encerradas en una conversación junto a un dispositivo inteligente.

Esa, comenta, es la meta última del cómputo omnipresente – hacer que las personas interactúen con otras personas de manera natural.

Para concluir el punto, él establece un momento de contacto visual intenso y deliberado y dice, “Esperemos que obtengas más de esta conversación porque estás presente de manera física conmigo”.

“Pudimos haber hecho esto por teléfono”, continúa. “Pudimos hacerlos en Skype. Lo pude haber grabado y luego enviarte la cinta. No elegiste nada de eso. Elegiste estar presente en persona conmigo. ¿Por qué? Porque así es como hacemos cosas de humanos”.

“El asunto es que tienes que estar aquí al mismo tiempo que yo, y tenemos que estar en la misma ubicación. El poder de la tecnología es que nos da la capacidad de desplazar el espacio y el tiempo”.

Imagen principal: Alex Kipman, asociado técnico de Microsoft prueba HoloLens 2, una diadema de cómputo holográfico con sensores integrados. Foto por Microsoft.

Contenido relacionado:

John Roach escribe sobre innovación e investigación en Microsoft. Síganlo en Twitter.