La intel·ligència artificial ja no necessita intervenció humana

Intel·ligència artificial / October 24, 2017

El 19 d’octubre ens vam trobar amb un nou avenç tecnològic: la intel·ligència artificial (IA) ja no necessita les persones per aprendre i millorar les seves respostes. Efectivament, la IA s’ha tornat autodidacta i així, el programa AlphaGo Zero ha pogut guanyar al millor jugador de Go del món (Lee Sedol) en les 100 partides que s'han jugat aquest any.

El joc

Però anem a pams, per aquells que no conegueu el joc Go cal que sabeu un parell de dades (per a més informació podeu prémer a Viquipèdia Go). Es va inventar fa més de 2500 anys a la Xina i es considera com un dels jocs més difícil de dominar per la IA. Ja l’any 1997 el programa Deep Blue d’IBM va guanyar a Kasparov als escacs, en canvi, per guanyar al Go cal una visió estratègica i una intuïció que van més enllà de la potència de càlcul. Fins ara, mai s’ha sabut com programar-ho.

AlphaGo Zero

Un dels aspectes a tenir en compte és el hardware utilitzat. Si bé els primers AlphaGo necessitaven 48 processadors de tipus TPU –processadors especialitzats en IA-, amb la nova versió només han calgut 4 TPUs en una sola màquina. A més, AlphaGo Zero utilitza una única xarxa neural per decidir quina jugada fer i avaluar-la al mateix temps (les versions anteriors necessitaven 2 xarxes neurals independents).

La característica més important d’aquest programa és com aprèn, doncs, no ho fa a partir de partides de jugadors experts, sinó que només se li han ensenyat les regles del joc. A partir d’aquí, AlphaGo Zero va començar a jugar contra ell mateix i ha anat aprenent per assaig i error.

AlphaGo Zero

Progressos

Sense cap intervenció humana el progrés del programa ha estat espectacular. Mitjançant l’aprenentatge per reforç positiu (guanyar la partida) al cap de tres hores jugava a escala principiant i buscava beneficis immediats despreocupant-se de la partida a llarg termini.

Després de jugar durant 19 hores el programa es va adonar que els beneficis immediats eren un mal negoci i va començar a jugar amb visió de futur mitjançant el domini del tauler a llarg termini. Va ser a partir de les 70 hores quan el seu nivell va arribar a les cotes més altes, amb un joc disciplinat, teixint una xarxa de control a tot el tauler i sense caure en les provocacions de les captures fàcils. En 3 dies AlphaGo Zero havia après estratègies d’inici i final que els jugadors de Go han anat perfeccionant al llarg dels segles!!

Estadístiques AlphaGo Zero