Como en una llamada telefónica: Xiaolce, el chatbot social de Microsoft en China, consigue un nuevo avance en conversación natural

Un usuario prueba la nueva funcionalidad en Xiaolce, el chatbot social de Microsoft en China. (Foto cortesía de Microsoft)

Cuando la gente interactúa hoy en día con la mayoría de los asistentes digitales personales, la experiencia es muy similar a hablar en un walkie-talkie o a través de mensajes de texto: Primero, una parte dice o escribe algo, y luego la otra digiere esa información y responde.

Li Zhou, Ingeniero Líder para Xiaolce. (Foto cortesía de Microsoft)

Es efectivo, pero Li Zhou, Ingeniero Líder para Xiaolce, el muy popular chatbot social impulsado por inteligencia artificial de Microsoft en China, destaca que tiene una gran desventaja.

“La gente no habla así en realidad”, comentó Zhou.

En su lugar, menciona, cuando la mayoría de las personas está al teléfono o en una conversación en persona, las dos hablan y escuchan al mismo tiempo – en ocasiones incluso predicen cómo podría terminar una oración la otra persona, y tal vez se interrumpen cuando lo creen apropiado o rompen un silencio incómodo para ofrecer una nueva idea basados en la información que reúnen.

Ahora, Microsoft cree que ha creado el primer avance tecnológico que puede permitir a la gente tener una conversación con un chatbot impulsado por IA que es más cercana a esa experiencia natural que una persona podría tener cuando habla por teléfono con un amigo.

De manera reciente, la compañía incorporó estos avances en Xiaolce, un chatbot social que tiene más de 200 millones de usuarios en Asia, y trabaja para aplicar estos mismos avances a otros chatbots sociales que incluyen a Zo, creación de Microsoft, en Estados Unidos.

Ying Wang, Director en Microsoft que supervisa a Zo. (Foto cortesía de Microsoft)

En la jerga de las telecomunicaciones, este avance permite a Xiaolce operar en “full duplex” – término que se refiere a la capacidad de comunicarse en ambas direcciones de manera simultánea, como se hace en una llamada telefónica. Este difiere de “half duplex«, que es más parecido a la experiencia que se tiene con un walkie-talkie en la que sólo una persona habla a la vez.

Zhou comenta que, con la reciente actualización, que Microsoft llama “full duplex voice sense”, también expande la capacidad de Xiaolce de predecir lo que la persona con la que habla dirá a continuación. Esto le ayuda a tomar decisiones sobre cómo y cuándo responder a alguien que chatea con ella, un conjunto de habilidades que es muy natural para la gente, pero aún no tan común en los chatbots.

“Este es el arte de la conversación que la gente utiliza en su vida diaria”, comentó Zhou.

En conjunto, full duplex voice sense reduce el poco natural tiempo de demora que en ocasiones hace incómodas o forzadas las interacciones con chatbots.

“Esto acelera sus respuestas para que sean más naturales”, mencionó Ying Wang, Director en Microsoft que supervisa a Zo.

Además, la nueva tecnología significa que los usuarios no tienen que usar una “palabra de arranque” (o wake word) – que por lo general es el nombre del chatbot – cada vez que responden durante sus conversaciones.

Di Li, Gerente General para Xiaolce en Microsoft. (Foto cortesía de Microsoft)

Este avance está basado en otras habilidades que Xiaolce ha desarrollado, como realizar una pausa en algo que hace – contar una historia, por ejemplo – para poder hacer otra cosa, como encender una luz. Luego, ella puede recordar que tiene que regresar a la historia – de nuevo, muy parecido a cómo una persona puede cambiar de temas por un momento durante una conversación y luego regresar al tema original.

Di Li, Gerente General para Xiaolce en Microsoft, comentó que todas estas mejoras son parte del esfuerzo de Microsoft por construir chatbots sociales impulsados por IA que entiendan las necesidades emocionales e intelectuales de las personas. Esto es algo central para las metas generales de Xiaolce, Zo y los otros chatbots sociales de Microsoft en todo el mundo, incluida Ruuh en India y Rinna en Japón e Indonesia.

A diferencia de los asistentes enfocados en productividad como Cortana, los chatbots sociales de Microsoft están diseñados para tener sesiones más largas y más conversacionales con los usuarios. Tienen sentido del humor, pueden charlar de cosas superficiales, jugar juegos, recordar detalles personales e involucrarse en bromas con la gente, tal como lo harían ustedes con un amigo.

Li destacó que full duplex voice sense es el tipo de avance que ayuda a hacer exitosas a ese tipo de conversaciones.

“Porque es algo muy natural, hace sentir muy relajado al usuario”, finalizó.

Tags: , , , , , , ,

Publicaciones Relacionadas