La intel·ligència artificial ja no necessita intervenció humana
El 19 d’octubre ens vam trobar amb un nou avenç tecnològic: la intel·ligència artificial (IA) ja no necessita les persones per aprendre i millorar les seves respostes. Efectivament, la IA s’ha tornat autodidacta i així, el programa AlphaGo Zero ha pogut guanyar al millor jugador de Go del món (Lee Sedol) en les 100 partides que s'han jugat aquest any.
El joc
Però anem a pams, per aquells que no conegueu el joc Go cal que sabeu un parell de dades (per a més informació podeu prémer a Viquipèdia Go). Es va inventar fa més de 2500 anys a la Xina i es considera com un dels jocs més difícil de dominar per la IA. Ja l’any 1997 el programa Deep Blue d’IBM va guanyar a Kasparov als escacs, en canvi, per guanyar al Go cal una visió estratègica i una intuïció que van més enllà de la potència de càlcul. Fins ara, mai s’ha sabut com programar-ho.
AlphaGo Zero
Un dels aspectes a tenir en compte és el hardware utilitzat. Si bé els primers AlphaGo necessitaven 48 processadors de tipus TPU –processadors especialitzats en IA-, amb la nova versió només han calgut 4 TPUs en una sola màquina. A més, AlphaGo Zero utilitza una única xarxa neural per decidir quina jugada fer i avaluar-la al mateix temps (les versions anteriors necessitaven 2 xarxes neurals independents).
La característica més important d’aquest programa és com aprèn, doncs, no ho fa a partir de partides de jugadors experts, sinó que només se li han ensenyat les regles del joc. A partir d’aquí, AlphaGo Zero va començar a jugar contra ell mateix i ha anat aprenent per assaig i error.
Progressos
Sense cap intervenció humana el progrés del programa ha estat espectacular. Mitjançant l’aprenentatge per reforç positiu (guanyar la partida) al cap de tres hores jugava a escala principiant i buscava beneficis immediats despreocupant-se de la partida a llarg termini.
Després de jugar durant 19 hores el programa es va adonar que els beneficis immediats eren un mal negoci i va començar a jugar amb visió de futur mitjançant el domini del tauler a llarg termini. Va ser a partir de les 70 hores quan el seu nivell va arribar a les cotes més altes, amb un joc disciplinat, teixint una xarxa de control a tot el tauler i sense caure en les provocacions de les captures fàcils. En 3 dies AlphaGo Zero havia après estratègies d’inici i final que els jugadors de Go han anat perfeccionant al llarg dels segles!!
Per a més informació:
http://www.lavanguardia.com/ciencia/20171019/432171399410/inteligencia-a...
https://www.entrepreneur.com/article/303444
https://deepmind.com/blog/alphago-zero-learning-scratch/
https://www.nature.com/articles/550336a.epdf?shared_access_token=QbXlOw9...