Divide y vencerás: Cómo los investigadores de Microsoft utilizan la Inteligencia Artificial para dominar a Ms. Pac-Man

Los investigadores de Microsoft han creado un sistema basado en inteligencia artificial (IA) que ha aprendido cómo conseguir la máxima puntuación en el mítico y adictivo videojuego de 1980: Ms. Pac-Man. Empleando el método de “divide y vencerás” se podría llegar a enseñar a los agentes de IA a realizar tareas complejas que aumentasen las capacidades humanas.

El equipo de Maluuba, una startup canadiense de aprendizaje profundo adquirida por Microsoft a principios de este año, ha usado una rama de IA llamada “aprendizaje de refuerzo” para jugar la versión Atari 2600 de Ms. Pac-Man a la perfección. Utilizando ese método, el equipo ha alcanzado la máxima puntuación posible: 999,990 puntos.

Doina Precup, profesora asociada de Ciencias de la Computación en la Universidad McGill de Montreal (Canadá), señaló que se trata de un logro significativo entre los investigadores de IA, que se basaron en diferentes videojuegos para probar sus sistemas, aunque fue Ms. Pac-Man el más difícil de dominar.

 

Precup dijo que estaba impresionada no solo con lo que habían conseguido los investigadores, sino por cómo lo habían hecho. Para alcanzar la puntuación más alta, el equipo dividió un gran problema (dominar el juego) en pequeñas piezas que después distribuían entre diferentes agentes de IA.

La idea de tenerles trabajando en diferentes piezas para llegar a conseguir un objetivo común es muy interesante”, comentó Precup. La profesora afirmó que es un método similar a algunas teorías sobre el funcionamiento del cerebro, y que puede tener mayores implicaciones a la hora de enseñar a las inteligencias artificiales a realizar tareas complejas con información limitada: “Eso podría ser muy, muy emocionante porque supondría un paso más hacia una inteligencia más general”.

El método -que el equipo de Maluuba llama “Arquitectura de recompensas híbridas”- utiliza más de 150 agentes de IA, cada uno trabajando en paralelo con otros agentes, para dominar el famoso videojuego. Por ejemplo, algunos recibían una recompensa por encontrar los pellets del poder (que desactivan temporalmente a los fantasmas), mientras que otros se encargaban de mantenerse alejados del camino de los fantasmas.

Después, los investigadores crearon a un agente superior que cogía las sugerencias del resto de los agentes y las utilizaba para decidir los movimientos futuros de Ms. Pac-Man. El agente superior tenía en cuenta el número de agentes que estaban yendo en una dirección determinada, así como de controlar la intensidad con la que querían realizar un movimiento. Por ejemplo, si 100 agentes querían ir a la derecha porque era el mejor camino para conseguir un pellet, pero tres de ellos querían ir a la izquierda porque había un fantasma a la derecha, el agente superior daría más peso a aquellos que se hubieran dado cuenta del fantasma e indicaría ir a la izquierda.

Harm Van Seijen, gerente de investigación en Maluuba y principal autor de un nuevo artículo sobre el logro, apuntó que los mejores resultados se consiguieron cuando cada agente actuaba de manera egoísta. Así, cuando la mayoría de los agentes estuvieran concentrados en dar con la mejor forma de conseguir un pellet, el agente superior decidiría cómo utilizar la información de cada agente para realizar el movimiento más adecuado para todos.

Hay una bonita interacción entre cómo tienen que cooperar basándose en las preferencias de todos los agentes, por un lado, pero también en cómo cada agente se preocupa de un problema específico. Esto beneficia al conjunto”, comentó Seijen.

¿Por qué Ms. Pac-Man?

Puede parecer extraño que se utilicen algunos de los métodos de investigación de IA más avanzados para algo tan simple, en apariencia, como un juego Atari de 1980. Sin embargo, Rahul Mehrotra, gerente de programación en Maluuba, apuntó que encontrar la forma de ganar en este tipo de videojuegos es, en realidad, bastante complejo, dada la variedad de situaciones con las que te puedes encontrar mientras juegas.

Muchas compañías que trabajan con IA utilizan juegos para construir algoritmos, dado que hay cantidad de características de inteligencia humanas necesarias para superar los juegos”, señaló Mehrotra.

Steve Golson, uno de los co-creadores de la versión arcade del juego, explicó que había una razón por la que Ms. Pac-Man tenía que ser simple de entender, pero difícil de vencer: se diseñó originalmente para jugar en arcade, y por tanto querían que la gente gastara su dinero.

“Quiere que los jugadores piensen ‘Oh… ¡casi lo tengo! Voy a intentarlo de nuevo”, dijo Golson.

Golson se sorprendió al darse cuenta hace unos meses que Ms. Pac-Man se estaba usando para pruebas en las investigaciones sobre IA. “Me hizo reír”, afirmó.

Sin embargo, Golson, que ahora dirige la consultora Trilobyte Systems, entendió que esto tenía su lógica. Ms. Pac-Man fue diseñado con la intención de que fuera menos predecible que Pac-Man original, por lo que sería más difícil para los jugadores. Esto lo convierte en ideal para los investigadores que intentan enseñar a los agentes de IA a reaccionar ante entornos aleatorios.

Es accesible y, sin embargo, tiene una increíble complejidad a causa de la aleatoriedad del juego”, afirmó.

Aprendizaje reforzado

Esta impredecibilidad es especialmente valiosa para los investigadores que están trabajando en el terreno de reforzar el aprendizaje. En investigaciones de Inteligencia Artificial, el aprendizaje reforzado es el contrapunto al aprendizaje supervisado, un método más común utilizado, en donde los sistemas hacen mejor algo a medida que se alimentan de ejemplos de buen comportamiento.

Con esto, un agente obtiene respuestas positivas o negativas para cada acción que intente hacer, y aprende basándose en prueba y error para aumentar las respuestas positivas o premios.

Un sistema IA basado en aprendizaje supervisado aprendería cómo llegar a ofrecer una respuesta adecuada en una conversación, alimentándose de ejemplos de buenas y malas respuestas. Po otro lado, de un sistema de refuerzo de aprendizaje, se espera que aprenda las respuestas apropiadas a través del feedback recibido de una fuente de alto nivel, como, por ejemplo, una persona que diga que ha disfrutado de la conversación, algo mucho más complicado.

Expertos en IA creen que el aprendizaje reforzado podría ser utilizado para crear agentes IA que puedan tomar más decisiones por sí mismos, permitiéndoles hacer un trabajo más complejo y liberando a la gente de trabajo.

Por ejemplo, Mehrotra comentó que el método que ellos han desarrollado para vencer a Ms. Pac-Man podría ser utilizado para ayudar al departamento de ventas de una compañía a hacer predicciones más precisas sobre potenciales clientes para llegar a ellos en un tiempo y día concretos. El sistema podría utilizar múltiples agentes, cada uno representando un cliente, con un agente por encima que pondere qué clientes renovarán contrato, qué contratos valen más para la compañía, y si el potencial cliente se encuentra disponible en la oficina ese día.

Esto, a su vez, liberaría al ejecutivo de ventas a centrar todo su tiempo en tratar de vender, y esto podría incrementar las oportunidades de que la venta llegase a realizarse, puesto que iría a los clientes más receptivos.

Van Seijen señaló que también podría ver este tipo de acercamiento de “divide y vencerás” para conseguir avances en otras áreas de investigación IA, como procesos de lenguaje natural.

Realmente, esto nos permite avanzar más en la solución de problemas realmente complejos”, afirmó.

Puedes consultar el post original aquí.