A DeepMind mesterséges intelligencia programja, az AlphaZero most az emberi intuíció és a kreativitás jeleit mutatja, amiben a fejlesztők a történelem „fordulópontjává” hivatkoztak.
A számítógépes rendszer lenyűgözte a világot tavaly amikor mindössze négy órán belül elsajátította a sakkjátékot, annak ellenére, hogy nem programozták, hogyan kell nyerni.
De most, a sakk nagymesterek által végzett egyéves tesztelés és elemzés után, a gép új játékstílust fejlesztett ki, a korábban még láthatatlanokhoz képest, ami azt sugallja, hogy a program most úgy improvizál, mint egy ember.
Ellentétben a világ legjobb sakkgépével - a Stockfish-kel, amely milliónyi lehetséges kimenetet számol ki játék közben, az AlphaZero tanul a múltbeli sikereiből és kudarcaiból, mozdulatai alapján "homályos érzés, hogy mindez hosszú távon beválik. "szakértői szerint a DeepMind.
Amikor az AlphaZero az 1,000 játékok során becsapódott a Stockfish ellen, mindössze hatot veszített el, meggyőzően megnyerve 155 alkalommal, és meghúzva a fennmaradó mérkőzéseket.
Ennek ellenére a játékmódja meghökkent a fejlesztõket. Míg a sakk számítógépek túlnyomórészt szeretnek ragaszkodni a darabjaikhoz, az AlphaZero könnyen feláldozta katonáit, hogy jobb helyet kapjanak a harcban.
A David Telep, a DeepMind megerősítő tanulási kutatócsoportját vezető Prof. David Silver felszólalva: „Az intuíció nagyon finom érzése van, amely segít kiegyenlíteni az összes különféle tényezőt.
„Olyan neurális hálózattal rendelkezik, amelynek milliói különböző hangolható paraméterekkel rendelkeznek, és mindegyik megtanulja a saját szabályait arról, hogy mi a jó a sakkban, és amikor mindet összeállítja, van valami, ami agyi módon kifejezi az emberi képességünket arra, hogy pillantás egy pozícióra, és azt mondani, hogy "ah ha ez a helyes dolog".
„Személyes meggyőződésem, hogy láttam valami fordulópontot, amikor megértettük, hogy sok olyan képesség, mint például az intuíció és a kreativitás, amelyekről korábban azt gondoltuk, hogy csak az emberi elme területén vannak, valóban hozzáférhetők a gépi intelligencia számára is. És azt hiszem, ez egy igazán izgalmas pillanat a történelemben. ”
Az AlphaZero „tabula rasa” vagy üres pala rendszerként indult, csak a sakk alapvető szabályaival programozva, és megtanulta nyerni több millió játék egymással szemben játszott játékával, amelyet megerősítő tanulásként ismert próba és hiba folyamatban tartanak.
Ugyanúgy, ahogy az emberi agy megtanulja, módosítja a taktikát egy korábbi nyerés vagy veszteség alapján, amely lehetővé teszi másodpercenként csupán 60 ezer pozíció keresését, összehasonlítva a nagyjából 60 millió stockfish-del.
Néhány órán belül a program önállóan felfedezte és lejátszotta az általános emberi nyitásokat és stratégiákat, mielőtt továbbfejlesztette saját ötleteit, például gyorsan felpörgette az ellenfél királyát, és sokkal kevesebb értéket tulajdonított az egyes daraboknak.
Az új játékstílust elemezték Matthew Sadler sakknagymester és Natasha Regan Női Nemzetközi Mester, akik szerint a hagyományos sakkmotorokkal ellentétben.
"Olyan ez, mint felfedezni egy nagyszerű játékos titkos jegyzetfüzetét a múltból" - mondta Sadler.
Regan hozzátette: „Lenyűgöző volt látni, hogy az AlphaZero elemzése hogyan különbözik a felső sakkmotoroktól, sőt a csúcs nagymester játékától is. Az AlphaZero hatékony oktatási eszköz lehet az egész közösség számára. ”
Garry Kasparov, a korábbi sakk világbajnok, aki híresen elvesztette a Deep Blue sakkgépét az 1997-ban, azt mondta: „Ahelyett, hogy az emberi utasításokat és ismereteket óriási sebességgel dolgozza fel, mint minden korábbi sakkgép, az AlphaZero saját tudást generál.
"Nagyon dinamikus stílusban játszik, hasonlóan a sajátomhoz. A következmények messze túlmutatnak szeretett sakktáblámon."