Pensar más allá del audio: mejorar los auriculares para las interacciones digitales cotidianas

Por: Payod Panda, investigador en ingeniería de diseño.

Esta investigación fue aceptada y recibió un premio al mejor artículo durante ACM Designing Interactive Systems (DIS) 2023, que se dedica a avanzar en el campo del diseño de sistemas centrados en el usuario.

De manera tradicional, los auriculares se usan para brindar y administrar experiencias de audio a través de controles físicos y una variedad de sensores. No obstante, estos controles y sensores se han mantenido confinados a la funcionalidad de entrada y salida de audio, como ajustar el volumen o silenciar el micrófono. Imagínense si los auriculares pudieran trascender su papel como meros dispositivos de audio.

Debido a que los auriculares se encuentran entre los dispositivos portátiles más populares del mercado, tenemos una emocionante oportunidad de expandir sus capacidades mediante la integración de sensores existentes con sensores complementarios para permitir una amplia variedad de experiencias que van más allá del control de audio tradicional. En nuestro artículo, “Más allá del audio: hacia un espacio de diseño de auriculares como sitio para la interacción y la detección”, compartimos una visión que explora este potencial.

Mediante el uso de sensores como micrófonos, sensores de proximidad, sensores de movimiento, unidades de medición inercial (IMU, por sus siglas en inglés) y LiDAR, los diseñadores de auriculares pueden explorar nuevas vías de entrada e interacción. El hecho de que los auriculares se usen en la cabeza de una persona permite una amplia gama de aplicaciones, como seguir los movimientos de la cabeza, las posturas corporales y los gestos con las manos. Además, como dispositivos portátiles, los auriculares tienen el potencial de proporcionar a los usuarios información rica en contexto y permitir interacciones más intuitivas y envolventes con sus dispositivos y su entorno más allá de los controles tradicionales basados en botones.

Escenarios potenciales para auriculares mejorados con sensor

Para explorar más este concepto, proponemos aumentar los auriculares con sensores adicionales y widgets de entrada. Éstas incluyen:

IMU para detectar la orientación de la cabeza
Conjuntos intercambiables de controles de entrada
Un LiDAR de detección de rango que permite la detección de gestos con las manos

Al incorporar estas capacidades, imaginamos una amplia gama de aplicaciones donde la entrada de auriculares actúa como un puente entre la persona que los usa y su entorno y permite interacciones más eficientes y conscientes del contexto entre múltiples dispositivos y tareas. Por ejemplo, un auricular podría ayudar a las personas con aplicaciones como videojuegos o ayudar a administrar las interrupciones durante una videollamada.

Exploremos algunos escenarios para ilustrar el potencial de nuestro concepto de diseño de auriculares. Consideren a una persona involucrada en una videollamada con compañeros de equipo cuando de repente son interrumpidos por un colega que se acerca en persona. En esta situación, nuestros auriculares estarían equipados para detectar señales contextuales, como cuando el usuario gira la cabeza para alejarse de una videollamada, lo que indica un cambio de atención. En respuesta, los auriculares podrían desenfocar en automático la transmisión de video y silenciar el micrófono para proteger la privacidad del usuario, como se muestra en la Figura 1. Esta característica también podría comunicar a otros participantes que el usuario está involucrado por el momento en otra conversación o actividad. Cuando el usuario vuelve a prestar atención a la llamada, el sistema elimina el desenfoque y reactiva el micrófono.

Figura 1: dos videos uno al lado del otro que muestran los auriculares en un escenario de control de privacidad consciente del contexto. A la izquierda, hay una vista por encima del hombro de un usuario que participa en una videollamada en una computadora portátil. Cuando aparta la mirada de la llamada, la pantalla de la computadora portátil cambia de color y la aplicación se silencia, lo que se muestra con un ícono de silencio superpuesto en el video. A medida que el usuario vuelve a mirar la pantalla, se desenfoca y se superpone un icono de activación del silencio en la imagen, lo que indica que se ha desactivado el silencio. A la derecha, vemos la pantalla del portátil descrita arriba. — Figura 1. Estos videos ilustran un sistema de control de privacidad sensible al contexto implementado durante una videoconferencia. En este escenario, el usuario se desconecta de manera temporal de la videoconferencia para entablar una conversación en persona. Después de un período predefinido, el sistema detecta la atención continua del usuario desviada de cualquier dispositivo conocido, y tiene en cuenta el contexto del entorno. Como resultado, se activan medidas de privacidad, que incluyen desenfoque de video, silenciamiento del micrófono y notificación a otros participantes en la llamada. Una vez que el usuario vuelve a interactuar con la pantalla, la configuración de video y micrófono vuelve a la normalidad, lo que garantiza una experiencia perfecta.

En otro escenario centrado en la privacidad, imaginen a una persona que tiene una conversación simultánea con varios compañeros de equipo en canales de videollamadas separados. El diseño de nuestros auriculares permite al usuario controlar a quién se dirige su discurso con sólo mirar a su público objetivo, como se muestra en la Figura 2. Esta interacción de discurso dirigido puede extenderse más allá de las videollamadas y aplicarse a otros contextos, como enviar comandos de voz dirigidos a compañeros de equipo en un videojuego multijugador.

DIS 2023 - Figura 2: dos videos uno al lado del otro que muestran al usuario controlar dónde se envía su entrada entre una multitud de dispositivos. A la izquierda, un video muestra una vista por encima del hombro de un usuario que interactúa con un monitor y laptop mientras usa auriculares. Hay dos videollamadas separadas en cada pantalla. A medida que el usuario pasa de una pantalla a otra, aparece un ícono de micrófono grande en la pantalla que mira el usuario y un ícono de micrófono silenciado se muestra en la otra pantalla. El video de la derecha muestra una vista por encima del hombro de un usuario que interactúa con una computadora portátil mientras usa auriculares. La pantalla de la computadora portátil muestra un videojuego y cuatro íconos circulares en cada esquina que representan a los otros jugadores. El usuario mira la parte inferior izquierda de la pantalla, que agranda el ícono del compañero de equipo en esa esquina, y el usuario comienza a hablar. Luego, el usuario mira la parte superior derecha de la pantalla y el compañero de equipo en esa esquina se resalta mientras el usuario habla. — Figura 2. Los auriculares siguen la postura de la cabeza del usuario, lo que facilita la distribución de video y/o audio a través de múltiples chats privados. Comunican con efectividad la disponibilidad del usuario a otros participantes, ya sea en un escenario de videoconferencia (izquierda) o en un escenario de juego (derecha).

En nuestro artículo, también demostramos cómo los gestos reconocibles a nivel social pueden introducir nuevas formas de control audiovisual en lugar de depender sólo de los controles en pantalla. Por ejemplo, los usuarios podrían interactuar con los medios a través de acciones gestuales, como acercar la oreja a la fuente de audio para aumentar el volumen y al mismo tiempo reducir el ruido ambiental, como se muestra en la Figura 3. Estos gestos, arraigados en contextos sociales y culturales, pueden servir como mecanismos de control y señales de comunicación no verbal.

DIS 2023 - Fig. 3 - imagen que muestra los controles gestuales para el volumen — Figura 3. Arriba: Levantar el auricular, un gesto utilizado de manera común para abordar las interrupciones en persona, silencia tanto el sonido como el micrófono para garantizar la privacidad. Abajo: ahuecar el auricular, un gesto que indica dificultad para escuchar, aumenta el volumen del sistema.

Además, podemos estimar la mirada de la cabeza del usuario mediante el uso de una IMU. Cuando se combina con la ubicación física de los dispositivos informáticos en las inmediaciones del usuario, abre posibilidades para interacciones perfectas entre múltiples dispositivos. Por ejemplo, durante una videollamada, el usuario puede compartir la pantalla del dispositivo en el que se enfoca de manera activa. En este escenario, el usuario cambia su atención de un monitor externo a una tableta. Aunque esta tableta no está conectada de manera directa a la computadora portátil principal, nuestro sistema cambia sin problemas el uso compartido de la pantalla para la audiencia del usuario en la videollamada, como se muestra en la Figura 4.

DIS 2023 - Figura 4: dos videos uno al lado del otro que muestran a un usuario de auriculares entre una multitud de dispositivos que controlan qué pantalla se comparte en una videollamada. El video de la izquierda muestra una vista por encima del hombro de una persona que interactúa con tres pantallas (un monitor, una computadora portátil y una tableta) mientras usa auriculares. Hay una videollamada en curso en la computadora portátil y el usuario da una presentación, que aparece como una diapositiva en el monitor adjunto. A medida que el usuario pasa de la pantalla de la computadora portátil al monitor, la diapositiva de presentación aparece en la pantalla de la computadora portátil compartida. El video de la derecha muestra una vista por encima del hombro de la persona que interactúa con tres pantallas (un monitor, una computadora portátil y una tableta) mientras usa auriculares. Vemos al usuario mirar el monitor con una diapositiva de presentación, que se refleja en la pantalla de la computadora portátil. Luego pasa del monitor a la tableta, que tiene una aplicación de dibujo abierta. Mientras hace esto, la aplicación de dibujo aparece en la pantalla de la computadora portátil compartida. El usuario usa un bolígrafo para dibujar en la tableta, y esto se refleja en la computadora portátil. Por último, el usuario levanta la vista de la tableta a la computadora portátil y la pantalla de la computadora portátil cambia a la vista de videollamada con los videos de los participantes. — Figura 4. Un usuario realiza una presentación a través de una herramienta de videoconferencia. A medida que el usuario mira diferentes dispositivos, el video transmitido se actualiza de manera dinámica para mostrar la fuente relevante a los participantes.

Por último, en nuestro artículo también mostramos el uso de interacciones encarnadas, donde los movimientos del cuerpo del usuario sirven para animar una representación digital de sí mismos, como un avatar en una videollamada, como se muestra en la Figura 5. Esta característica también se puede implementar como un mecanismo de juego. Tomen un juego de carreras, por ejemplo, donde los movimientos del cuerpo del usuario podrían controlar la dirección del vehículo, que se muestra a la izquierda en la Figura 6. Para ampliar esta capacidad, estos movimientos podrían permitir al usuario mirar alrededor de los obstáculos en cualquier juego en primera persona, para mejorar la inmersión y la experiencia de juego, que se muestra a la derecha en la Figura 6.

Figura 5. Izquierda: los auriculares usan una IMU para monitorear y capturar los movimientos naturales del cuerpo, que luego se traducen en los correspondientes movimientos del avatar. Derecha: Los controles táctiles integrados en los auriculares permiten a los usuarios evocar una variedad de emociones en el avatar, lo que mejora la experiencia del usuario.

DIS 2023 - Figura 6: dos videos que muestran a un usuario que juega un videojuego mientras se inclina hacia la izquierda y hacia la derecha. Estos movimientos controlan los movimientos de su personaje, lo que le permite agacharse y mirar alrededor de las paredes. — Figura 6. Inclinarse mientras se usan los auriculares (con una IMU integrada) tiene un impacto directo en la acción del juego. A la izquierda, da como resultado que el automóvil se desvíe hacia un lado, mientras que, a la derecha, permite al jugador agacharse detrás de una pared.

Espacio de diseño para interacciones con auriculares

Definimos un espacio de diseño para auriculares interactivos a través de una exploración de dos conceptos distintos, que analizamos en profundidad en nuestro artículo.

Primero, observamos el tipo de gesto de entrada para la interacción, que clasificamos en tres categorías. La entrada gestual del usuario puede caer en una o más de estas categorías, que describimos con más detalle a continuación e ilustramos en la Figura 7.

Gestos táctiles que involucran entradas tangibles en los auriculares, como botones o perillas, que requieren contacto físico por parte del usuario.
Gestos en el aire, que el usuario hace con las manos muy cerca de los auriculares, detectados a través de la tecnología LiDAR
Orientación de la cabeza, que indica la dirección de la atención del usuario

DIS 2023 - Figura 7: Lista de tres imágenes estilizadas que muestran los tres tipos principales de gestos que observamos: tacto, orientación de la cabeza y gestos en el aire. — Figura 7. Los auriculares con sensor mejorado pueden usar gestos táctiles (izquierda), orientación de la cabeza (centro) o gestos en el aire (derecha) como tipos de entrada.

La segunda forma en que definimos el espacio de diseño es a través del contexto dentro del cual el usuario ejecuta la acción. Aquí, las consideraciones de diseño para los auriculares mejorados con sensores van más allá de la intencionalidad del usuario y el movimiento observado. La conciencia del contexto permite que estos auriculares comprendan las actividades del usuario, las aplicaciones con las que están involucrados y los dispositivos cercanos, como se ilustra en la Figura 8. Esta comprensión permite que los auriculares brinden experiencias personalizadas y se integren a la perfección con el entorno del usuario. Las cuatro categorías que definen esta conciencia del contexto se componen de lo siguiente:

Acciones independientes del contexto, que producen resultados similares sin importar la aplicación activa, la actividad del usuario o el entorno social o físico.
Contexto definido por la aplicación con la que interactúa el usuario. Por ejemplo, ¿escucha música, está en una videollamada o ve una película?
Contexto definido por el cuerpo del usuario. Por ejemplo, ¿el gesto del usuario está cerca de una parte del cuerpo que tiene un significado asociado? Los ojos pueden estar relacionados con las funciones visuales, los oídos con la entrada de audio y la boca con la salida de audio.
Contexto definido por el entorno del usuario. Por ejemplo, ¿hay otros dispositivos o personas alrededor del usuario con quienes podría querer interactuar?

DIS 2023 - Figura 8: Diagrama que muestra los diferentes niveles de contexto que observamos: libre de contexto, aplicación, cuerpo del usuario y entorno. — Figura 8. El sistema utiliza diversa información contextual para permitir respuestas personalizadas a las entradas del usuario.

Hacia el futuro: Ampliar las posibilidades de HCI con dispositivos portátiles cotidianos

Los auriculares mejorados con sensor ofrecen una vía prometedora para que los diseñadores creen experiencias de usuario inmersivas y conscientes del contexto. Al incorporar sensores, estos auriculares pueden capturar comportamientos sutiles del usuario, para facilitar interacciones fluidas y mejorar la experiencia general del usuario.

Desde la protección de la privacidad hasta la provisión de mecanismos de control intuitivos, las posibles aplicaciones de los auriculares con sensores mejorados son amplias y emocionantes. Esta exploración con auriculares rasca la superficie de lo que la tecnología wearable sensible al contexto puede empoderar a sus usuarios para lograr. Consideren la multitud de dispositivos portátiles que usamos todos los días que podrían beneficiarse de la integración de capacidades similares de detección e interacción en estos dispositivos. Por ejemplo, imaginen un reloj que pueda rastrear los movimientos de su mano y detectar gestos. Al permitir la comunicación entre dispositivos portátiles mejorados con sensores, podemos establecer un ecosistema cohesivo para la interacción entre humanos y computadoras que se extiende a través de aplicaciones, dispositivos y contextos sociales.

Pensar más allá del audio: mejorar los auriculares para las interacciones digitales cotidianas

Escenarios potenciales para auriculares mejorados con sensor

Espacio de diseño para interacciones con auriculares

Hacia el futuro: Ampliar las posibilidades de HCI con dispositivos portátiles cotidianos

Publicaciones Relacionadas