Skip to main content
Intel·ligència

La intel·ligència artificial ja no necessita intervenció humana

El 19 d’octubre ens vam trobar amb un nou avenç tecnològic: la intel·ligència artificial (IA) ja no necessita les persones per aprendre i millorar les seves respostes. Efectivament, la IA s’ha tornat autodidacta i així, el programa AlphaGo Zero ha pogut guanyar al millor jugador de Go del món (Lee Sedol) en les 100 partides que s'han jugat aquest any.

Go

El joc

Però anem a pams, per aquells que no conegueu el joc Go cal que sabeu un parell de dades (per a més informació podeu prémer a Viquipèdia Go). Es va inventar fa més de 2500 anys a la Xina i es considera com un dels jocs més difícil de dominar per la IA. Ja l’any 1997 el programa Deep Blue d’IBM va guanyar a Kasparov als escacs, en canvi, per guanyar al Go cal una visió estratègica i una intuïció que van més enllà de la potència de càlcul. Fins ara, mai s’ha sabut com programar-ho.

AlphaGo Zero

Un dels aspectes a tenir en compte és el hardware utilitzat. Si bé els primers AlphaGo necessitaven 48 processadors de tipus TPU –processadors especialitzats en IA-, amb la nova versió només han calgut 4 TPUs en una sola màquina. A més, AlphaGo Zero utilitza una única xarxa neural per decidir quina jugada fer i avaluar-la al mateix temps (les versions anteriors necessitaven 2 xarxes neurals independents).

La característica més important d’aquest programa és com aprèn, doncs, no ho fa a partir de partides de jugadors experts, sinó que només se li han ensenyat les regles del joc. A partir d’aquí, AlphaGo Zero va començar a jugar contra ell mateix i ha anat aprenent per assaig i error.

AlphaGo Zero

Progressos

Sense cap intervenció humana el progrés del programa ha estat espectacular. Mitjançant l’aprenentatge per reforç positiu (guanyar la partida) al cap de tres hores jugava a escala principiant i buscava beneficis immediats despreocupant-se de la partida a llarg termini.

Després de jugar durant 19 hores el programa es va adonar que els beneficis immediats eren un mal negoci i va començar a jugar amb visió de futur mitjançant el domini del tauler a llarg termini. Va ser a partir de les 70 hores quan el seu nivell va arribar a les cotes més altes, amb un joc disciplinat, teixint una xarxa de control a tot el tauler i sense caure en les provocacions de les captures fàcils. En 3 dies AlphaGo Zero havia après estratègies d’inici i final que els jugadors de Go han anat perfeccionant al llarg dels segles!!

Estadístiques AlphaGo Zero

 

Per a més informació:

http://www.lavanguardia.com/ciencia/20171019/432171399410/inteligencia-a...

https://www.entrepreneur.com/article/303444

https://deepmind.com/blog/alphago-zero-learning-scratch/

https://www.nature.com/articles/550336a.epdf?shared_access_token=QbXlOw9...

Sobre això

En aquest Portal del CRAI, trobaràs un recull d'eines i recursos TIC i TAC per ajudar als usuaris en el seu aprenentatge i la docència, així com píndoles formatives. Us podeu subscriure al Blog i estar sempre informats del que es vagi publicant.

Publicacions destacades

Contacte

La Unitat de Docència del CRAI gestiona i ofereix a la comunitat UB recursos d'informació i serveis útils per a la tasca docent.

  • Baldiri Reixac, 2 08028 Barcelona
  • +34934034731 / +34934034013
  • udcrai@ub.edu