La inteligencia artificial, de nombre Pluribus, se impuso por medio de unos algoritmos que le permitieron adquirir capacidades de «abstracción de acciones» y «abstracción de información. Sus creadores, Noam Brown y Tuomas Sandholm, lo lograron por medio de un sistema de aprendizaje en el que la IA jugó contra cinco copias de sí misma y, además, lo lograron reduciendo las necesidades de computación del programa. Estos avances se acaban de publicar en Science.
«Pluribus ha alcanzado un rendimiento sobrehumano en un juego de póker multijugador, lo que es un hito clave que ha permanecido inalcanzado durante décadas», ha dicho en un comunicado Tuomas Sandholm. Según ha añadido este investigador, esta «habilidad para derrotar a cinco jugadores en un juego tan complicado abre nuevas oportunidades para emplear la IA para resolver una gran variedad de problemas reales».
Pluribus salió victorioso frente a 13 jugadores profesionales de póker, entre los que están algunos de los mejores del mundo, en 15.000 manos. En ocasiones, su estrategia confirmó lecciones tradicionales del juego, pero en otros casos resultó desconcertante.
Un jugador desconcertante
«Su mayor fortaleza reside en su habilidad para usar estrategias variadas», dijo Darren Elias, uno de los jugadores con más títulos del World Poker Tour. «Es lo mismo que las personas tratan lograr. Hacerlo de una forma aleatoria y hacerlo de forma consistente. La mayoría de la gente sencillamente no puede».
Otros grupos ya han desarrollado inteligencias artificiales capaces de aprender por sí mismas y alcanzar niveles sobrehumanos en el Go, el ajedrez y StarCraft. Incluso, ya vencen en videojuegos de disparos de varios jugadores.
Sin embargo, en esta ocasión la clave está en que se ha combinado la complejidad del póker, que es un juego con información incompleta en el que los oponentes no saben qué cartas tiene el contrario (a diferencia del ajedrez o el go). Esta habilidad, por cierto, es muy interesante para resolver problemas reales en los que no se tiene toda la información.
La importancia del equilibrio de Nash
Además, las máquinas desarrolladas hasta ahora adquirieron sus habilidades sobrehumanas aproximándose a lo que se conoce como «equilibrio de Nash», un conjunto de estrategias (una por jugador) en la que ninguno de ellos se beneficia por cambiar su estrategia siempre y cuando la táctica del rival tampoco cambie. Esto implica que una máquina gana cuando el rival no puede mantener el equilibrio.
Pero en un juego con más de dos jugadores apostar por el equilibrio de Nash puede llevar a la derrota: resulta extremadamente difícil identificarlo y, además, en el póker hay mucha información escondida, por lo que no resulta práctico hacer esta aproximación.
Por eso, Brown y Sandholm desarrollaron una estrategia de autoaprendizaje en la que la máquina jugó miles de veces contra varias copias de sí misma para hallar las mejores jugadas, por pura probabilidad. El resultado es que Pluribus crea un boceto para las partidas, con una lista de posibles estrategias, que se va ajustando en tiempo real en las manos sucesivas, de forma que a lo largo de los días va mejorando su habilidad. Además, el programa apila manos similares, y hace abstracciones para simplificar el manejo de información.
Otro de los logros de esta investigación es que el programa ha reducido la potencia de computación necesaria para elaborar su boceto de jugadas. Le bastó con ocho días de computación en los que usó 12.400 horas/núcleo, y con emplear 28 núcleos durante las partidas, mientras que sistemas anteriores requirieron del orden de 1.000 veces más recursos.