Divide y vencerás: Cómo los investigadores de Microsoft utilizaron IA para dominar Ms. Pac-Man

Para dominar el videojuego Ms. Pac-Man, los investigadores de Maluuba asignaron diferentes tareas a un número de agentes de IA, y crearon un sistema que les permitiera trabajar de manera colaborativa. Foto: Microsoft.

Investigadores de Microsoft han creado un sistema basado en inteligencia artificial que aprendió cómo obtener la puntuación máxima en el adictivo videojuego de los ochenta: Ms. Pac-Man, a través de un método de “divide y vencerás” que podría tener implicaciones más amplias para enseñar a los agentes de IA a realizar tareas complejas que incrementen las capacidades humanas.

El equipo de Maluuba, un emprendimiento canadiense de aprendizaje profundo adquirido por Microsoft a principios de 2017, utilizó una rama de IA llamada reforzamiento de aprendizaje para jugar de manera perfecta la versión de Ms. Pac-Man para Atari 2600.

Doina Precup, profesora asociada de ciencias de la computación en la Universidad McGill en Montreal, comentó que se trata de un logro significativo entre los investigadores de IA, que han utilizado varios videojuegos para probar sus sistemas y que encontraron que Ms. Pac-Man estaba entre los más difíciles de vencer.

Pero Precup comentó que estaba impresionada no sólo con lo que consiguieron los investigadores sino con la manera en que lo consiguieron. Para obtener la puntuación alta, el equipo dividió el gran problema de dominar Ms. Pac-Man en piezas pequeñas, que luego distribuyeron entre los agentes de IA.

“Esta idea de ponerlos a trabajar en diferentes piezas para conseguir una meta común es muy interesante”, mencionó Precup.

También comentó que es similar a algunas teorías sobre cómo funciona el cerebro y podría tener implicaciones más amplias para enseñar a la IA a realizar tareas complejas con información limitada.

“Eso sería muy, muy emocionante porque es otro paso hacia una inteligencia más general”, comentó Precup.

El método, que el equipo de Maluuba llama Hybrid Reward Architecture (Arquitectura Híbrida de Recompensa), utilizó a más de 150 agentes, donde cada uno trabajó en paralelo con los otros para dominar Ms. Pac-Man. Por ejemplo, algunos agentes fueron recompensados por encontrar una píldora específica de manera exitosa, mientras que a otros se les asignó mantenerse alejados del camino de los fantasmas.

Después, los investigadores crearon un agente principal, algo como el gerente senior de una empresa, que tomó las sugerencias de todos los agentes y las utilizó para decidir hacia dónde mover a Ms. Pac-Man.

El agente principal tomó en consideración cuántos agentes recomendaron ir hacia cierta dirección, pero también observó la intensidad con la que ellos querían que realizara ese movimiento. Por ejemplo, si 100 agentes querían ir a la derecha porque esa era la mejor ruta hacia su píldora, pero tres querían ir hacia la izquierda porque en la otra dirección se encontrarían con un mortal fantasma, le daría más peso a los que notaron al fantasma y entonces se dirigiría a la izquierda.

Harm Van Seijen, gerente de investigación con Maluuba que es el autor principal de un nuevo documento sobre este logro, comentó que los mejores resultados se consiguieron cuando cada agente actuó de manera muy egoísta; por ejemplo, cuando se enfocó sólo en la mejor manera de obtener su píldora, mientras el agente principal decidía cómo utilizar la información de cada uno de los otros agentes para realizar el mejor movimiento para todos.

“Existe esa agradable interacción entre cómo deben, por un lado, cooperar basados en las preferencias de todos los agentes, pero al mismo tiempo cada agente se preocupa sólo por un problema en particular”, mencionó. “Se benefician todos”.

¿Por qué Ms. Pac-Man?

Podría parecer extraño que tome a algunos de los métodos de investigación en IA más avanzados vencer algo en apariencia tan simple como un juego de Atari de la década de los ochenta. Pero Rahul Mehrotra, gerente de programa en Maluuba, comentó que descubrir cómo ganar en este tipo de videojuegos es bastante complejo, debido a la enorme variedad de situaciones que se pueden encontrar mientras se juega.

“Muchas empresas que trabajan en IA utilizan juegos para construir algoritmos inteligentes porque existen muchas capacidades de inteligencia parecidas a la huma que necesitas vencer en los juegos”, comentó Mehrotra.

Steve Golson

Steve Golson, uno de los co-creadores de la versión arcade del juego, comentó que había una razón para que Ms. Pac-Man fuera fácil de aprender a jugar, pero casi imposible de conquistar: Fue diseñada para jugar en formato arcade y querían que la gente no parara de insertar monedas para jugar.

“Quieres (que los jugadores piensen), ‘Oh, oh, ¡Casi lo logro! Lo voy a intentar de nuevo,’”, comentó Golson. “¡Ka-ching! Otra moneda”.

Golson comentó que se sorprendió de saber hace unos meses que Ms. Pac-Man era utilizada de manera amplia como campo de pruebas para investigación de IA.

“Me hizo sonreír”, mencionó.

Pero Golson, que ahora dirige la firma consultora Trilobyte Systems, mencionó que esto hace sentido. Ellos diseñaron Ms. Pac-Man de manera intencional para que fuera menos predecible que el Pac-Man regular, para que fuera más difícil para los jugadores vencerla. Eso la hizo el ambiente ideal para que los investigadores trataran de enseñar a los agentes de IA a reaccionar ante ambientes aleatorios.

“Es accesible”, mencionó, “y aun así tiene esta increíble complejidad en ella por lo aleatorio en el juego”.

Reforzamiento de aprendizaje

Esa imprevisibilidad es en especial valiosa para los investigadores que trabajan en el campo del reforzamiento de aprendizaje que se mantiene en evolución. En la investigación de IA, el reforzamiento del aprendizaje es la contraparte del aprendizaje supervisado, un método de inteligencia artificial utilizado de manera más común, en el cual, los sistemas mejoran en realizar alguna tarea conforme son alimentados con más ejemplos de buen comportamiento.

Con el reforzamiento de aprendizaje, un agente obtiene respuestas negativas o positivas para cada acción que intenta, y aprende a través de prueba y error a maximizar las respuestas positivas o las recompensas.

Un sistema basado en IA que utiliza aprendizaje supervisado podría aprender cómo brindar una respuesta adecuada en una conversación al alimentarlo con ejemplos de buenas y malas respuestas. Por otro lado, en un sistema de reforzamiento de aprendizaje, se espera que aprenda las respuestas apropiadas sólo a través de retroalimentación de alto nivel, como cuando una persona dice que disfrutó la conversación, una tarea que es mucho más difícil.

Los expertos en IA creen que el reforzamiento de aprendizaje podría ser utilizado para crear agentes de IA que puedan tomar más decisiones por sí mismos, lo que les permitiría realizar trabajos más complejos y liberar a la gente para un trabajo de un valor más alto.

Por ejemplo, Mehrotra comentó que el método que desarrollaron para vencer a Ms. Pac-Man podría ser utilizado para ayudar a la parte de ventas de una empresa a realizar predicciones precisas sobre a qué clientes potenciales pueden abordar en un momento y día particular. El sistema podría utilizar agentes múltiples, cada uno representando a un cliente, con un agente principal que sopese factores como qué clientes están listos para renovar contrato, cuáles contratos valen más para la empresa y si el cliente potencial se encuentra en la oficina por lo general ese día o está disponible en cierto momento.

En retorno, esto podría liberar a los ejecutivos de ventas para enfocar todo su tiempo en tratar de vender, y podría incrementar las oportunidades de conseguir una venta porque sólo se enfocarían en los clientes más receptivos.

Van Seijen comentó que también podría ver este tipo de enfoque “divide y vencerás”, utilizado para conseguir avances en otras áreas prometedoras de la investigación en IA, como el procesamiento natural del lenguaje.

“En verdad nos permite conseguir un mayor progreso en la resolución de estos complejos problemas”, finalizó.

Tags: , , , ,

Publicaciones Relacionadas