La fatiga por video y un conductor de un programa nocturno sin audiencia en vivo, inspiran una nueva manera de ayudar a la gente a sentirse junta, de manera remota

Cuando golpeó la pandemia global y todos cambiaron a las videollamadas para el trabajo, la escuela y las reuniones con amigos, Jeremy Bailenson pensó que estaba preparado.

Después de todo, las videoconferencias han existido durante años, y el profesor de la Universidad de Stanford ha dedicado dos décadas a estudiar y escribir sobre comunicación y comportamiento digitales. Pero las videollamadas siempre habían sido más una opción que la regla, y Bailenson, junto con el resto del mundo, se encontró de manera rápida sorprendido por el impacto de un giro completo a las comunicaciones remotas.

“Después de una semana de refugio en casa, me quedé desconcertado por lo intenso y agotador que era”, comentó Bailenson, que vive en California, el primer estado de Estados Unidos que requirió que los residentes se mantuvieran en casa para reducir la propagación del virus COVID-19. “La mayoría de los estudios sobre videoconferencias son sobre cómo mejorar la productividad y la colaboración, pero no se había estudiado la noción de que te agota”.

Mientras Bailenson comenzó a leer libros electrónicos “sobre todo lo que hubiera respecto a las videoconferencias”, su amigo en Microsoft, Jaron Lanier, reflexionaba sobre el problema desde un ángulo diferente. Un conductor de talk-show nocturno en Nueva York, en cuya banda Lanier tocaba de manera ocasional, batallaba para realizar su monólogo para una cámara en su sala, sin un audiencia en vivo que reaccionara a sus chistes. Lanier lanzó una red hacia el mar de investigadores, psicólogos y programadores de Microsoft, y en unas semanas había armado lo que llama una “mágica” nueva función para ayudar al presentador de TV y a su audiencia a sentirse conectados. Su idea evolucionó en una función de Teams, el modo Juntos, que de manera potencial podría reducir para todos la fatiga de las videollamadas.

Retrato de Jeremy Bailenson, que sonríe a la cámara — Jeremy Bailenson, profesor de la Universidad de Stanford, que pasó dos décadas en la investigación de la comunicación y el comportamiento digitales, aún seguía sorprendido por lo cansado que era cambiar por completo al trabajo remoto y las videollamadas cuando la pandemia global golpeó este año. (Foto cortesía de Bailenson).

“Fue una fortuita coincidencia de necesidades” la que llevó a un importante salto para mejorar las reuniones remotas, comentó Lanier, científico computacional, músico, artista y autor que acuñó el término “realidad virtual” y es considerado un pionero en el campo.

El modo Juntos, que ahora se distribuye en Microsoft Teams, combina dos décadas de investigación y desarrollo de producto para colocar juntos a todos los participantes de una videollamada en un espacio virtual, como un auditorio, sala de juntas o cafetería, para que parezca que están juntos en el mismo lugar. La nueva función se aleja de la tradicional cuadrícula de cajas, para crear un entorno que los usuarios dicen tiene un profundo impacto en la sensación de las videoconferencias y brinda más cohesión al grupo.

El modo Juntos está construido para dar a las personas la impresión de que todos miran al grupo en un gran espejo virtual, la cual dice Lanier era la única aunque simple solución que cambia toda la experiencia. Los cerebros de las personas están acostumbrados a estar conscientes de los demás con base en su ubicación, y el efecto espejo hace más difícil para el cerebro notar irregularidades en el contacto visual. Esas son algunas de las cualidades que hacen que sea más fácil para todos decir cómo responden el uno al otro.

“Somos criaturas sociales, y los sistemas de conciencia social y espacial en el cerebro pueden, al final, funcionar de manera más natural”, dentro del modo Juntos, comentó Lanier.

Los científicos comenzaron a estudiar en serio los problemas con el contacto visual, o desalineación de la mirada, en la década de los sesenta, y Lanier ha trabajado para mejorar ese elemento de las videoconferencias desde los días análogos de la década de los setenta. Sin embargo, si bien la tecnología se ha vuelto más robusta y estable con el paso de las décadas, no ha habido mejoras reales a la experiencia humana que fueran viables para un uso generalizado. El modo Juntos utiliza cómputo en la nube en lugar de cámaras y pantallas especializadas que solían ser necesarias para mejorar las videollamadas.

Para entender la fatiga de videollamadas, Bailenson, director y fundador del Laboratorio de Interacción Humana Virtual de Stanford, peinó décadas de estudios sobre comunicación y encontró algunas causas clave.

Por ejemplo, comenta, si el rostro de alguien se cierne en tu esfera visual en la vida real, por lo general significa que vas a pelear o a reproducirte. Así que estás alerta y muy consciente, reacciones que son automáticas e inconscientes, y tu frecuencia cardiaca aumenta. Y en las videollamadas, por lo general hay una cuadrícula con múltiples rostros que llenan las casillas. Es mucho por manejar para el sistema nervioso de tu cuerpo, comentó.

Además, de manera constante las personas interpretan los movimientos oculares y postura de los demás, cómo se inclinan sus cabezas y más, y atribuyen un significado a esas señales no verbales. Los investigadores en los años sesenta revisaron cintas de video de grupos cuadro por cuadro, comenta Bailenson, y descubrieron un baile complejo e intrincado: Por ejemplo, una persona giraba la cabeza y otra se inclinaba un poco hacia atrás.

Cuando Henrik Turbell, ingeniero de software en Microsoft, escuchó el desafío de Jaron Lainer, buscó inspiración en un prototipo que desarrolló hace tres años “sólo por diversión”, donde puso varias versiones de su hija de seis años en una transmisión de video con un solo fondo. (Video cortesía de Turbell)

Pero en una videollamada, esos movimientos no son diagnósticos, comenta, lo que significa que no son información precisa de lo que sucede. Una persona podría mirar a otra para una respuesta, pero dado que todos están organizados diferente en la vista de cuadrícula de la pantalla de cada participante, no está claro para los demás a quién miran en realidad.

“Es una situación imposible, donde te asfixias con datos no verbales, pero ninguno de esos datos es diagnóstico”, comentó Bailenson. “El modo Juntos vuelve a poner la verdad en el gesto. Cuando los movimientos de la cabeza tienen un significado real, alineados con la intención de las personas, las cosas se vuelven menos confusas, y eso reduce la fatiga porque ya no estás desconcertado por lo que sucede”.

Mary Czerwinski, psicóloga cognitiva en Microsoft, dice que las señales sociales no verbales son tan automáticas que los miembros de la audiencia pueden incluso sincronizar su respiración con la del orador.

“Existe todo tipo de señales sutiles: inclinación de cabeza, señales faciales, lenguaje corporal, que utilizamos para mostrar que tenemos un problema, o queremos hablar, o que estamos o no de acuerdo”, mencionó Czerwinski.

Al usar el modo Juntos, ella comenta, “He visto a la gente inclinarse y tocarse uno al otro. He visto a gente que hace contacto visual con quienes no están sentados cerca uno del otro. Así que ahora las personas pueden practicar algunas de las señales sociales que harían en la vida real”.

La vista del modo Juntos es la misma para todos en la reunión y no cambia, a diferencia de las vistas de cuadrícula que muestran los videos de los participantes en diferentes ubicaciones en la pantalla de cada persona y que mueven las cajas durante la llamada con base en quién es la persona que habla. Dado que toda un área del cerebro está dedicada a la memoria espacial, la consistencia del modo Juntos es una manera “enorme” de reducir la carga cognitiva de una videollamada, comentó Czerwinski.

Kori Inkpen ha trabajado en cómo la tecnología puede apoyar a la colaboración, al brindar una sensación de estar juntos, desde inicios de 1990, cuando pasó un verano como estudiante de posgrado que veía niños jugar videojuegos en un museo de ciencias. Ella ahora investiga la colaboración humanos-IA para Microsoft, pero regresó a su primer pasión de las videoconferencias, cuando Lanier le pidió ayuda.

“Siempre tratamos de imaginar el futro y trabajamos en cosas mucho antes de que la gente piense que podría necesitarlas, y a menudo, en el camino, habrá una necesidad de ellas en nuestros productos y podemos tomarlas de los estantes y decir, ‘Oye, hicimos esto hace cinco años, ¿Es útil ahora?’, comentó Inkpen. “Siempre hubo un poco de rechazo a lo largo de los años por hacer algo de manera virtual, y recibimos críticas de personas que decían, ‘¿Por qué querrían jugar con sus hijos de manera virtual?’ Pero la idea era que pudiéramos construir herramientas para que los niños pudieran jugar juntos de una manera natural, cuando no pudieran estar juntos. Nadie imaginó una pandemia que forzaría a todos a aislarse de los demás”.

Sin duda, reunirse en persona se disfruta más que un entorno de video, comenta Inkpen, pero el modo Juntos crea la percepción de un espacio compartido para ofrecer “una sensación de cercanía que es muy convincente”. La nueva función recuerda a Inkpen un estudio que hizo hace diez años, donde los niños podían verse con amigos en un video y le dijeron que sentían que todos jugaban juntos en la TV. Ella recuerda que les ayudó a comportarse de manera más natural, porque sus cerebros no tenían que mapear dónde estaban las cosas o invertir las imágenes para sostener los juguetes en el lugar correcto para la cámara, por ejemplo.

“Cuando trabajas en tecnología colaborativa, es fácil pensar que si tan solo construimos una herramienta en verdad genial, la gente trabajará junta como en una fábrica super eficiente”, comentó Jeff Teper, el visionario detrás de Microsoft Teams, SharePoint y OneDrive. “Pero los humanos son seres sociales que se conectan de manera emocional a través del lenguaje corporal y de las señales verbales para construir sentimientos de confianza, y parte de lo que hace a un equipo es un propósito compartido y una sensación de confianza. El modo Juntos está arraigado en la psicología y la sociología humanas”.

Reimaginar la colaboración virtual para el futuro del trabajo y el aprendizaje

El futuro del trabajo – lo bueno, lo malo y lo desconocido

El empuje en años recientes, por parte de Satya Nadella, CEO de Microsoft, para fomentar la colaboración y las lluvias de ideas entre diferentes grupos, fue clave para la nueva función, comentó Teper, lo que permitió al equipo de expertos, con diferentes antecedentes, a desbordarse en buscar la respuesta a la urgencia de la nueva necesidad.

“Tenemos tanta tecnología cognitiva para visión y habla, y la parte más difícil es cómo la aprovechamos para resolver problemas humanos y traer valor humano, más allá de sólo ser genial”, comentó Lan Ye, quien lidera al grupo de llamadas, reuniones y dispositivos de Teams. “Pero aquí teníamos estos problemas de conexión humana creados por este modo de trabajo, así que vimos eso e incrementamos la velocidad para construirla”.

La nueva función, y la velocidad a la que se armó, son ejemplos de cómo la investigación puede pagar dividendos en el camino.

Los ingenieros de software David Zhao, Henrik Turbell y Walid Boumerdassi, construyeron un prototipo del modo Juntos en un fin de semana, para el cual se apoyaron de manera importante en el trabajo que habían hecho hace dos años para un proyecto de Microsoft Hackathon. Ese diseño se originó con el equipo de Inkpen y en esencia removía a una persona de su entorno de video y la sobreponía en otro fondo. Boumerdassi, que es de Francia pero vive en Seattle, recuerda la diversión de hacer una videollamada con su familia en casa y ver a todos juntos en una pantalla, sin cuadros, con la Torre Eiffel en el fondo.

El modo Juntos se basa en el trabajo que comenzó con el primer día de Turbell con Microsoft en Estocolmo, hace siete años, cuando voló a Londres para reunirse en el laboratorio del equipo del investigador Jamie Shotton, en las oficinas de Microsoft en Cambridge, Reino Unido, para el futuro de la segmentación de video. Ese es un método que divide piezas de video, como el frente y el fondo, que puede ser utilizado para crear una experiencia más compartida que sólo poner a las personas en una cuadrícula.

En el modo Juntos, los participantes pueden encontrarse en espacios sobrepuestos e incluso “tocar” a la gente que los rodea. La ausencia de barreras crea una mayor consciencia social y una sensación de una jornada compartida.

Ese cambio único se ganó de manera rápida a los desarrolladores de la nueva función mientras la probaban desde casa.

La fatiga por video le llegó de manera rápida a Boumerdassi, cuando comenzó a trabajar desde su apartamento en Seattle, en lugar de hacerlo en las oficinas de Microsoft en Redmond, Washington. En su lugar, comenzó a tener llamadas sólo con audio, pero no le gustaba lo limitada que era la comunicación.

Una niña y un hombre sonrientes miran a la cámara — David Zhao, ingeniero de software en Microsoft, inscribió a su hija para ayudarle a probar el proyecto del Hackathon 2018 que utilizaba segmentación para separar a los participantes de sus entornos en una videollamada y colocarlos juntos, en este caso, colocándola en su oficina en casa con él. (Captura de pantalla cortesía de Zhao).

Sin embargo, cuando comenzó a probar el modo Juntos, notó un cambio inmediato en las conversaciones. Fluían de manera más natural. La gente no acaparaba el tiempo, porque comenzaban a captar el lenguaje corporal y podían saber cuándo otros querían hablar. Boumerdassi encontró que ya no se miraba en automático en el video, como a menudo lo hacía con la vista de cuadrícula, preguntándose nervioso quién más podría mirarlo. En su lugar, olvidó incluso que estaba en el video y en cambio, se enfocó en las personas que lo rodeaban, lo que significaba que estaba menos distraído y que captó más en las reuniones.

“Como ingenieros, hicimos que funcionara, pero no sabíamos cuál era el impacto”, comentó Boumerdassi. “Pero Jaron entendió el potencial, fue el primero en ponerlo en palabras, y su visión sobre esto convenció a todos para perseguirlo como función. Es algo mágico y es por eso que todos estamos emocionados al respecto”.

Zhao, que comenzó su carrera en 2007 como segundo desarrollador de video en Skype y construyó la función de llamada en grupo para la compañía, llamó a la experiencia del modo Juntos un “avance” para las videoconferencias.

“Esto es solo el inicio”, concuerda Ye. “Tenemos muchas ideas que queremos construir sobre este andamiaje que nos permitirán en verdad cambiar cómo son las reuniones hoy”.

El modo Juntos no es para cualquier situación. Es tan natural y crea una presencia tan compartida que si la gente realiza varias tareas a la vez y mira hacia su escritorio, otros podrían pensar que miran a la persona debajo de ellos, bromea Bailenson.

Pero traer la conciencia social a las reuniones remotas de la manera en que lo hace el modo Juntos “tendrá un efecto dramático en términos de incrementar la cohesión social, el respeto y la confianza”, comentó Czerwinski. “Cuanto mejor hagamos esto, más nos entenderemos y apreciaremos unos a otros”.

“Esto es algo enorme para la sociedad. Y quién sabe por cuánto tiempo estaremos en esta situación de pandemia”.

Imagen principal: El modo Juntos es mostrado con un fondo de auditorio, se basó en el trabajo de un equipo de expertos de Microsoft con antecedentes muy diferentes, que incluye a (de izquierda a derecha, de arriba abajo) Kori Inkpen, Henrik Turbell, Walid Boumerdassi, Jeff Teper, Mary Czerwinski, David Zhao, Jaron Lanier, Lan Ye. Fotografía de Microsoft.

Más historias

La IA generativa puede hacer que los servicios de viaje sean más accesibles para millones de indios: Sanjay Mohan, Group CTO, MakeMyTrip

Política de Discapacidad: un puente sobre la brecha de discapacidad

Emprendedores traen nuevas ideas y tecnologías para preservar el planeta

Tom Burt de Microsoft habla sobre geopolítica y ciberseguridad en la era de la IA