Los agentes de inteligencia artificial continúan acumulando triunfos en el mundo de los videojuegos. La semana pasada, los bots de OpenAI fueron jugando Dota 2 ; esta semana, es Quake III , con un equipo de investigadores de la subsidiaria DeepMind de Google que capacita con éxito a los agentes que pueden vencer a los humanos en un juego de capturar la bandera .

Como hemos visto con ejemplos anteriores de juegos de video de AI, el desafío aquí es entrenar a un agente que pueda navegar en un entorno 3D complejo con información imperfecta. Los investigadores de DeepMind utilizaron un método de entrenamiento de IA que también se está convirtiendo en estándar: el aprendizaje de refuerzo, que básicamente se basa en el ensayo y error a gran escala.

Los agentes no reciben instrucciones sobre cómo jugar el juego, sino que simplemente compiten contra ellos mismos hasta que encuentran las estrategias necesarias para ganar. Usualmente esto significa una versión del agente AI jugando contra un clon idéntico. DeepMind dio profundidad extra a esta fórmula al entrenar a una cohorte completa de 30 agentes para introducir una “diversidad” de estilos de juego. ¿Cuántos juegos se necesitan para entrenar a una IA de esta manera? Casi medio millón, cada uno con una duración de cinco minutos.

Como siempre, es impresionante cómo una técnica tan simple conceptualmente puede generar un comportamiento complejo en nombre de los bots. Los agentes de DeepMind no solo aprendieron las reglas básicas para capturar la bandera (agarrar la bandera de tus oponentes desde su base y devolverla a la tuya antes de que te hagan lo mismo), sino estrategias como proteger tu propia bandera, acampar en la base de tu oponente, y seguir a sus compañeros de equipo para que pueda atacar al enemigo.

Para hacer el desafío más difícil para los agentes, cada juego se jugó en un mapa completamente nuevo, generado por procedimiento. Esto aseguró que los bots no aprendieran estrategias que solo funcionaban en un solo mapa.

A diferencia de los OpenAI dota 2 bots, los agentes de DeepMind tampoco tenían acceso a datos numéricos en bruto sobre el juego – alimentaciones de números que representan información como la distancia entre oponentes y barras de salud. En cambio, aprendieron a jugar simplemente mirando la información visual de la pantalla, lo mismo que un humano. Sin embargo, esto no significa necesariamente que los robots de DeepMind se enfrentaran a un desafío mayor; dota 2 es en general un juego mucho más complejo que la versión simplificada de Quake III que fue utilizado en esta investigación.

Para probar las habilidades de los agentes de inteligencia artificial, DeepMind celebró un torneo, con equipos de dos jugadores con solo bots, solo humanos, y una mezcla de bots y humanos que se enfrentaron el uno contra el otro. Los equipos con bot-only tuvieron más éxito, con una probabilidad de ganar del 74 por ciento. Esto en comparación con la probabilidad 43 de jugadores humanos promedio, y el 52 por ciento de probabilidades de jugadores humanos fuertes. Entonces: claramente los agentes de IA son los mejores jugadores.


Un gráfico que muestra la calificación de Elo (habilidad) de varios jugadores. Los agentes “FTW” son DeepMind, que jugaron contra sí mismos en un equipo de 30.
Crédito: DeepMind

Sin embargo, vale la pena señalar que cuanto mayor es el número de bots de DeepMind en un equipo, peor lo hicieron. Un equipo de cuatro bots de DeepMind tenía una probabilidad de ganar del 65 por ciento, lo que sugiere que, si bien los agentes de IA de los investigadores sí aprendieron algunos elementos de juego cooperativo, estos no necesariamente se adaptan a dinámicas de equipo más complejas.

Como siempre, con investigaciones como esta, el objetivo no es vencer a los humanos en los videojuegos, sino encontrar nuevas formas de enseñar a los agentes a navegar en entornos complejos mientras se persigue un objetivo compartido. En otras palabras, se trata de enseñar inteligencia colectiva, algo que (a pesar de la abundante evidencia de lo contrario) ha sido integral para el éxito de la humanidad como especie. Capturar la bandera es solo un proxy para juegos más grandes por venir.