Dividir e conquistar: como os pesquisadores da Microsoft usaram Inteligência Artificial para dominar Ms. Pac-Man

Pesquisadores da Microsoft criaram um sistema baseado em Inteligência Artificial (IA) que aprendeu a obter a pontuação máxima no Ms. Pac-Man, videogame viciante da década de 1980, usando um método de dividir-e-conquistar que pode ter amplas implicações no ensino de agentes de IA para executar tarefas complexas que aumentem as habilidades humanas.

A equipe da Maluuba, empresa canadense de aprendizado profundo adquirida pela Microsoft no início deste ano, usou um ramo da IA chamado reforço de aprendizagem para jogar a versão Atari 2600 de Ms. Pac-Man perfeitamente. Com esse método, a equipe alcançou a pontuação máxima possível de 999.990.

Doina Precup, professora associada de ciência da computação na Universidade McGill, em Montreal, Canadá, considera essa conquista significativa entre pesquisadores de IA, que usaram vários videogames para testar seus sistemas, mas encontraram em Ms. Pac-Man um dos mais difíceis de vencer.

Precup disse que ficou impressionada não apenas com o que os pesquisadores conseguiram, mas como conseguiram. Para obter a alta pontuação, a equipe dividiu o grande problema de dominar Ms. Pac-Man em pequenos pedaços, que eles distribuíram entre os agentes de IA.

“Essa ideia de fazê-los funcionar em peças diferentes para alcançar um objetivo comum é muito interessante”, disse Precup.

Para ela, é semelhante a algumas teorias de como o cérebro funciona e pode ter amplas implicações no ensino de IAs para executar tarefas complexas com informações limitadas.

“Seria realmente emocionante porque é mais um passo em direção a uma inteligência mais geral”, disse ela.

O método, que a equipe da Maluuba chama de Arquitetura de Recompensa Híbrida, usou mais de 150 agentes, cada um dos quais trabalhou em paralelo com outros agentes para dominar a Ms. Pac-Man. Por exemplo, alguns agentes foram recompensados por encontrar com sucesso uma bolinha específica, enquanto outros foram encarregados de ficar longe dos fantasmas.

Então, os pesquisadores criaram um agente de alto nível – como um gerente sênior de uma empresa – que recebeu sugestões de todos os agentes e as usou para decidir para onde mover a Ms. Pac-Man.

Harm Van Seijen

O agente principal levou em consideração quantos agentes queriam ir em uma certa direção, mas também analisou a intensidade com que pretendiam fazer esse movimento. Por exemplo, se 100 agentes desejassem ir para a direita, porque esse era o melhor caminho para a bolinha, mas três queriam ir para a esquerda porque havia um fantasma mortal à direita, ele daria mais peso aos que perceberam o fantasma e ia para a esquerda.

Harm Van Seijen, gerente de pesquisa da Maluuba, principal autor de um novo artigo sobre a conquista, disse que os melhores resultados foram alcançados quando cada agente agiu de forma egoísta – por exemplo, focado apenas na melhor maneira de chegar à sua bolinha – enquanto o agente principal decidia como usar as informações de cada agente para fazer o melhor movimento para todos.

“Há uma boa interação entre os agentes em como devem cooperar com base nas preferências de todos, mas, ao mesmo tempo, cada agente se preocupa apenas com um problema específico”, disse ele. “Isso beneficia o todo.”

Por que Ms. Pac-Man?

Pode parecer estranho que sejam necessários alguns dos métodos de pesquisa de IA mais avançados para vencer algo tão aparentemente simples como um jogo Atari dos anos 1980. Mas Rahul Mehrotra, gerente de programa na Maluuba, disse que descobrir como ganhar esse tipo de videogame é realmente bastante complexo, devido à enorme variedade de situações que se pode encontrar ao jogar.

“Muitas empresas que trabalham com IA usam jogos para criar algoritmos inteligentes porque há muitas habilidades de inteligência humana que você precisa para vencê-los”, disse Mehrotra.

Steve Golson

Steve Golson, um dos cocriadores da versão arcade do jogo, disse que havia uma razão pela qual Ms. Pac-Man precisava ser fácil de entender, mas quase impossível de vencer: foi projetada originalmente para jogos arcade e eles queriam que as pessoas continuassem a colocar moedas para continuar jogando.

“Você quer (que os jogadores pensem) ‘Oh, oh, eu quase consegui! Vou tentar de novo’”, disse Golson. “Ka-ching! Outra moeda.”

Golson disse que ficou maravilhado ao saber, apenas alguns meses atrás, que Ms. Pac-Man é amplamente utilizado como campo de testes na pesquisa de IA.

“Isso me faz rir”, disse ele.

Mas Golson, que agora administra a empresa de consultoria Trilobyte Systems, disse que faz sentido. Eles planejaram intencionalmente Ms. Pac-Man para ser menos previsível do que o Pac-Man, por isso seria mais difícil para os jogadores vencerem. Isso tornou o jogo um cenário ideal para os pesquisadores que tentam ensinar os agentes de IA a reagir em ambientes aleatórios.

“É acessível”, disse ele, “e ainda tem essa incrível complexidade por causa da aleatoriedade na forma de jogar.”

Reforço de aprendizagem

A imprevisibilidade é especialmente valiosa para os pesquisadores que estão trabalhando no campo em desenvolvimento do reforço de aprendizagem. Na pesquisa de IA, o reforço de aprendizado é a contrapartida da aprendizagem supervisionada, um método mais comumente utilizado de Inteligência Artificial em que os sistemas melhoram ao fazer algo, pois são alimentados com mais exemplos de bom comportamento.

Com o reforço de aprendizagem, um agente obtém respostas positivas ou negativas para cada ação que tenta executar, e aprende através de tentativa e erro a maximizar as respostas positivas ou recompensas.

Um sistema baseado em IA que usa aprendizagem supervisionada aprenderia como chegar a uma resposta adequada em uma conversa alimentado de exemplos de boas e más respostas. Um sistema de reforço de aprendizado, por outro lado, espera-se que aprenda respostas apropriadas apenas de feedback de alto nível, como uma pessoa que diz que gostou da conversa – uma tarefa muito mais difícil.

Os especialistas em IA acreditam que o reforço de aprendizado poderia ser usado para criar agentes de IA que possam tomar mais decisões por conta própria, permitindo que eles façam um trabalho mais complexo e liberem cada vez mais as pessoas para missões de alto valor.

Por exemplo, Mehrotra disse que o método que eles desenvolveram para vencer Ms. Pac-Man poderia ser usado para ajudar a organização de vendas de uma empresa a fazer previsões precisas sobre quais potenciais clientes atingir em determinado momento ou num determinado dia. O sistema poderia usar vários agentes, cada um representando um cliente, com os principais fatores de peso do agente, como os clientes que estão para renovar o contrato, quais contratos valem mais para a empresa e se o cliente potencial está no escritório naquele dia ou disponível naquele momento.

Isso, por sua vez, liberaria o executivo de vendas para concentrar todo o seu tempo na tentativa de fazer vendas, e aumentaria as chances de que conseguisse vender, porque só teria como alvo os clientes mais receptivos.

Van Seijen disse que esse tipo de abordagem dividir-e-conquistar poderia ser usada para fazer avanços em outras áreas promissoras da pesquisa de IA, como o processamento de linguagem natural.

“Realmente nos permite avançar ainda mais na solução desses problemas complexos”, disse ele.

Fotos: Microsoft

Tags: , , ,

Posts Relacionados