El futuro de Kinect
Los zombies no tienen por qué que dar miedo – en especial cuando los niños pueden crearlos a su imagen. A través del sensor de Kinect para Windows v2 y una aplicación llamada YAKiT, los niños pueden pasar al bando de los ‘no-muertos’ y ver cómo cobra vida a través de animación basada en desempeño. Como muchos que utilizan el sensor Kinect, los niños no necesitan una lista gigante de instrucciones para utilizarlo. Sólo se paran frente a él, se mueven como zombies y de manera instantánea, sus figuras animadas se mueven como ellos, y comienzan a emitir sus sonidos guturales.
Mientras que la más reciente versión de Kinect ha estado disponible desde el lanzamiento de Xbox One, la pre-orden de la versión de Kinect para Windows ya estará disponible para todos los desarrolladores. Ambos sensores están construidos sobre un conjunto de tecnologías compartidas.
Empresas como Freak’n Genius, la empresa ubicada en Seattle detrás de YAKiT, ya han tenido la oportunidad de probar el sensor Kinect para Windows v2 a través del Programa de Versión Previa para Desarrolladores. “En serio, es algo mágico”, dice Kyle Kesterson, fundador de Freak’n Genius. “Colocamos a la gente al frente, y ellos se iluminan sin tener que hacer nada”.
Pero detrás de esa magia está la culminación de años de aprendizaje de máquina. Todo es parte de un complejo proceso 24 x 7 que involucra una legión de personas y recursos que reúnen datos de voces, gestos corporales y expresiones faciales, luego prueban la información y la analizan antes de que el software llegue a la sala de TV.
“Traer Kinect a Xbox One para entregar capacidades de visión y escucha fue sólo el inicio de una larga jornada y evolución de la Interacción Natural de Usuario (NUI por sus siglas en inglés)”, dice Scott Evans, gerente del grupo de programa de socios para Kinect. NUI rompe las barreras entre humanos y máquina, para que la interacción sea tan natural como hablar a otra persona o expresar una intención a través de matices no verbales.
Kinect necesita trabajar para todos, en su ambiente natural. Por fortuna, el dispositivo aprende rápido, gracias a la gente que trabaja cada día para hacerlo mejor. En cualquier momento del día, más de 300 kits de desarrollador de Xbox prueban hasta 2 millones de cuadros de video reunidos desde miles de visitas al hogar, sesiones de captura de movimiento y experimentos dentro de casa.
Aprendizaje de máquina: enseñar al software cómo comportarse
En Microsoft, hay todo un grupo de personas en el grupo de NUI que están enfocadas en tomar solicitudes de otros equipos y en reunir información sobre cómo la gente se mueve y expresa.
“Comenzamos con diseñar el hardware, y llevamos los mejores ojos y oídos a la sala de TV. Luego pasamos por el proceso de construir el software para eso – el cerebro que toma la señal cruda y la lleva a un entendimiento del cuarto y la gente que está en él”, dice Evans.
Cuando fue lanzado como parte de Xbox One, Kinect ya había sido programado para reconocer ciertos movimientos y objetos como base. Pero para mejorar el software, Microsoft primero necesita documentar a gente real utilizándolo en sus ambientes naturales, luego comparar de manera manual lo que Kinect ve con la realidad (“tierra firme”). Esos datos son luego alimentados al sistema, que corre algoritmos para encontrar dónde el reconocimiento de software no concuerda con la tierra firme – y ahí es donde sabe que debe mejorar.
Recolectar datos para Kinect significa traer voluntarios a los laboratorios en el campus de Microsoft, se les colocan trajes para sesiones de captura de movimientos y visitar los hogares de empleados de Microsoft – un grupo diverso de diferentes edades, géneros, idiomas y etnias – para grabar clips de video de cuerpos en movimiento natural.
Tres veces al día, el equipo de Servicios de Investigación Interactiva visita a los empleados que viven a 25 millas del campus principal de Redmond. Estas visitas comenzaron en octubre de 2012, y ahora van a más de mil hogares por petición de los equipos que trabajan en reconocimiento facial, calibración de color, expresiones, controladores, gestos, habla, audio e identidad, entre otros.
Darrel Mitchell y Brandon Broady son el actual equipo de dos miembros que realizan las visitas a las casas. Mitchell graba los clips de video tomados a través del sensor Kinect para Xbox One que traen, mientras que Broady da instrucciones a los participantes para que las sigan, como un instructor de ejercicios. Estas acciones luego son grabadas con cámaras infrarrojas, que pueden mapear 3D en oscuridad cercana.
De regreso al campus de Microsoft, en un cuarto llamado “The Holodeck”, Rainer Schiller, Gerente de Programa, toma cerca de 20 imágenes fijas para comenzar a modelar una cara en 3D. Esto ayuda a entrenar a Kinect para que reconozca diferentes tipos de caras y crear avatares como aquellos encontrados en “Kinect Sports Rivals”.
En otro edificio, Anatole Chen Líder de Investigación de Usuario trabaja con Alexander Clark que usa un traje, para grabar miles de diferentes movimientos y gestos – como movimiento de golpe de bateo o de golf – con cámaras infrarrojas de 24 megapixeles. Esta es la base para datos sintéticos que pueden ser manipulados después para que Kinect pueda reconocer a sus usuarios de manera más precisa. Esta información establece la línea base contra la que los datos de las visitas a los hogares pueden ser comparados.
Tierra firme
Todos esos datos luego van a los ‘etiquetadores’ que establecen la ‘tierra firme’. Es un conjunto de tareas tedioso pero necesario que involucra rastreo de esqueleto, etiquetado electrónico de 25 articulaciones en el cuerpo humando, definidos en base a cuadro por cuadro. Así es como se documenta el movimiento en espacios 3D y se alimentan en aprendizaje de máquina. Cerca de 20 etiquetadores de casa tienen que definir dónde están las manos, hombros, y pies – además de otras áreas del cuerpo.
Hay muchos obstáculos en su camino – sofás, postura encorvada, mascotas, bebés que lloran, por nombrar algunas – y es su trabajo decir a la computadora dónde comienza y termina el humano que utiliza el sensor.
Más de un millón de cuadros de imágenes fueron anotados a mano antes del lanzamiento de Xbox One. Un trabajo como esto no ha pasado desapercibido por aquellos que desarrollan aplicaciones que utilizan Kinect.
“Kinect es un gran ejemplo de obtener tecnología increíble y sofisticada para crear soluciones simples”, dice Spencer Hutchins, cofundador y CEO de Reflexion Health, basada en San Diego. La empresa de Hutchins ha utilizado Kinect para hacer Vera, una aplicación con la intención de motivar a los pacientes a hacer sus ejercicios de terapia física en casa con el sensor Kinect para Windows v2. Cuando se conecta el dispositivo Kinect a una computadora, provee a las empresas y desarrolladores los fundamentos que necesitan para crear aplicaciones interactivas que respondan a los movimientos naturales, gestos y comandos de voz.
Hutchins agrega, “La capacidad del sistema Kinect de rastrear y grabar individuos que realizan sus ejercicios abren enormes oportunidades para los terapistas físicos para entender lo que pasa con sus pacientes, y enlistar la ayuda de Vera para asesorar a sus pacientes para que realicen sus ejercicios de manera correcta”.
Pasar por el guante
El equipo de Vince Ortado en Microsoft procesa hasta 180 mil clips de video por hora, y corren algoritmos de aprendizaje de máquina que mejoran el software de Kinect. Más de 300 kits de desarrollo de Xbox operan 24 x 7, divididos en grupos que prueban todo desde gestos de mano a identidad.
Es importante que estos millones de cuadros de video vayan tan rápido como sea posible, tal como los equipos que trabajan en Kinect sólo pueden actuar después de que reciben los resultados. Y están en la agenda de actuar a paso rápido con lanzamientos mensuales de software que dan a los usuarios una experiencia que mejora de manera continua.
“Estas máquinas son un guante. Tienen que pasar por el guante o no. Tienen que pasar para dar a los desarrolladores y al equipo de liderazgo la confianza, la información que está construida es lo suficientemente buena para construir para nuestra audiencia”, dice Ortado.
Hacia adelante
Nuevas empresas como Freak’n y Reflexion Health y juegos como “Kinect Sports Rivales” muestran lo que ya es posible, y qué podría estar en el horizonte.
“Es sorprendente el poder que viene en un precio de venta tan accesible y de tan fácil distribución”, dice Hutchins. “El rastreo de movimiento ha estado por décadas en la medicina, pero siempre es propietario, orientado a la investigación, e inmóvil por completo. Kinect nos permite traer el poder de ese rastreo al mundo real – y caer en una experiencia de interfaz inmersiva y motivadora.
“Tratamos de crear contenido visual que hace a la gente decir, ‘¡Eso es increíble, de alta calidad y muy brillante!”, dice Kesterson. “Todo el tiempo estamos bajo un bombardeo constate de contenido con una alta producción, por lo que mientras más podamos hacer el trabajo duro nosotros y Kinect, la calidad se vuelve mejor para el creador y para la audiencia del creador”.
Ahora mismo, la gente puede experimentar Kinect a través de Xbox One: jugar juegos, elegir películas y utilizar Skype. O tal vez les guste más andar por la calle e interactuar con un sensor Kinect para Windows como parte de una experiencia en una tienda minorista, o en otros espacios como museos, hoteles u oficinas corporativas. O tal vez sucedan en experiencias interactivas de animación como las que montó Freak’n Genius, que puso a la gente en el escenario a bailar como mascota de compañía. La disponibilidad de pre-órdenes permitirá que aún más sensores Kinect para Windows v2 lleguen a las manos de los desarrolladores y habilite una más amplia variedad de escenarios de usuario.
Y según los equipos de personas que trabajan de manera continua para mejorar Kinect, Evan de Kinect dice, “Se trata de hacer que Kinect trabaje tengan o no un cómodo sofá o una planta en su sala de TV que podrían
parecer una persona. Ser capaz de siempre acertar y entender quién eres en tu ambiente natural, en cada sala de TV con cada persona. Esa es la inversión que hacemos en el aprendizaje de máquina. Es hacerlo adecuado para cada persona”.