Uloga pokera u razvoju veštačke inteligencije

Igranje pokera neizostavno zahteva baratanje nepotpunim informacijama, što ovu igru čini vrlo kompleksnom. Uz to, poker je umnogome odraz situacija koje postoje u stvarnom svetu.

Kao što je veliki Kenny Rogers jednom rekao, „dobar kockar mora da zna kada da ide dalje a kada da odustane („A good gambler has to know when to hold ’em and know when to fold ’em“). Ovog januara se u kockarnici Rivers Casino u Pitsburgu tri sedmice uzastopno kompjuterski program Libratus nadmeće sa šampionima u pokeru i pritom ih – devastira. Ovo se, doduše, dogodilo po prvi put otkad se čovek i AI sukobljavaju, ali po svemu sudeći neće biti i poslednji (slično je bilo i sa šahom: bilo je potrebno neko vreme da naučnici „našteluju“ mašinu, odnosno usavrše softver Deep Blue koji je tukao najjače šahovske velemajstore sveta). U Kasinu Rivers, ovog meseca računar nam drži lekciju: pokazuje nam kako može da odigra bolje od bilo kog igrača od krvi i mesa.

Libratus je za to vreme odigrao hiljade varijanti pokera; heads-up, igranje u parovima, varijantu no-limit Texas Hold’em pokera itd… a sve to protiv nekoliko najvećih pokeraških eksperata i profesionalaca. Svake godine, borba ljudi protiv mašina u kasinu Rivers privlači veliku medijsku pažnju, a Libratus je u jednom trenutku „bio dobar“ 800 hiljada dolara; toliko je „inkasirao“ igrajući protiv ljudi. Toliko je Libratus dobro igrao da se stekao utisak da je njegova pobeda, ma koliko daleko od zagarantovane, mogla biti ostvarena igrajući karte bez potpunih informacija i „samo“ baratajući teorijom verovatnoće.

AI je nepredvidiva na način koji je ljudima stran

Trijumf bi za Libratus i njegove tvorce bio veliki uspeh u oblasti razvoja veštačke inteligencije. Poker zahteva razmišljanje, kombinatoriku, baratanje verovatnoćom, dobru memoriju i, naravno, inteligenciju. Ova kockarska igra fundamentalno se razlikuje od igara kao što su Dame, šah ili go s obzirom da protivnički igrač u rukama uvek ima nepoznatu opciju – kombinaciju skrivenu od očiju drugih igrača. U igrama zasnovanim na “nepouzdanim-nepotpunim informacijama,” enormno je komplikovano shvatiti i proniknuti u moguću idealnu strategiju koju bi svaki protivnik primenio igrajući protiv vas. A u no-limit verziji teksaškog Hold’em pokera ovo je poseban izazov jer bi protivnik mogao da podiže ulog proizvoljno – bez ograničenja (otuda se ova verzija teksaškog pokera i naziva „no-limit“).

“Poker je za veštačku inteligenciju bio i ostao dosad najveći izazov, u koji je tek nedavno uspeo da pronikne”, kaže Endrju Ng (Andrew Ng), glavni naučnik u kompaniji Baidu. “Ne postoji niti jedan optimalan potez, ali – umesto izvesnosti – AI igrač mora da nasumično deluje kako bi sopstvenim neplanskim potezima nadomestio nepoznavanje svih podataka (u ovom slučaju, to je poznavanje svih protivnikovih karata); tako kod protivnika unosi neizvesnost kada i da li uopšte blefira, a protivniku je, s druge strane, teško da uspostavi bio kakvu efikasnu strategiju jer nije siguran da li pri podizanju uloga mašina blefira ili ne.”

Kreatori Libratusa su Tuomas Sandholm, profesor računarstva na univerzitetu Karnegi Melon (CMU), i njegov student Noam Brown. Sandholm, stručnjak za teoriju igara i AI koji je iz Finske došao u SAD kako bi radio svoj doktorat, kaže da je neverovatno koliko su dugo ljudi bili u stanju da nadigraju računar. “Uvek se zapanjim pri pomisli koliko dobro igraju vrhunski profesionalci”, kaže on. “Od svih ovih igara kojih se njihov Libratus poduhvatio, poker je bila jedina u kojoj AI nije uspevala da pokaže nadljudske performanse.”

Istraživači uposleni u razvoju veštačke inteligencije koriste primenjenu matematičku oblast koja se zove teorija igara i/ili matematiku strateškog odlučivanja, nastojeći da iznađu najbolju strategiju na osnovu obilja varijabli (neizvesnih ishoda, nepoznatih vrednosti); ova strategija poznata je kao teorija (uspostavljanja) ravnoteže, ili ekvilibrijum. Upravo iz razloga što postoji toliko mnogo mogućih ishoda, ovo obično podrazumeva neku vrstu aproksimiranja – traženja najpribližnije verovatne vrednosti koja bi se mogla iskoristiti u igri.

“Bilo da je taj potez dobar ili ne, sve zavisi od stvari koje je nemoguće posmatrati, sve vrednosti su skrivene od oka” kaže Vinsent Conitzer, profesor AI i teorije igara na Univerzitetu Djuk. “Ovo, takođe, rezultira potrebom da za protivnika uvek ostanete – nepredvidivi. Međutim, ukoliko stalno blefirate – niste dobar igrač. Teorija igara vam govori kako i do koje mere treba da svoju igru na neki način učinite „nasumičnom“ – ali samo na način koji je u izvesnom smislu optimalan.”

Sandholm je prošle godine predvodio razvoj prethodnog programa za igranje pokera po imenu Klaudiko (Claudico), kojeg je ubedljivo potuklo nekoliko profesionalnih igrača pokera. On objašnjava da, za razliku od Klaudika, Libratus koristi nekoliko novih dostignuća kako bi postigao tako visok nivo kvaliteta igre. Ovo uključuje nove tehnike aproksimacije optimalnog poteza (ekvilibrijum), kaže Sandholm, kao i nove metode analize najverovatnijih ishoda u kasnijim fazama igre, kako se karte tokom partije sve više otvaraju (a samim tim i input podataka u mašini povećava). Ova analiza krajnjeg ishoda igre je u računarskom smislu veoma zahtevna i izazovna, a sprovođena je tokom svake partije u Superračunarskom centru u Pitsburgu, u objektu kojeg vode CMU i Univerzitet u Pitsburgu.

Napredak koji mašine imaju u učenju strategija ljudskih igara i AI već su urodili plodom; nedavno se pojavio veliki broj superprograma za igranje ljudskih igara. Prošle godine, istraživači na projektu Deep Mind, izdanku Guglovog Alphabet-a, razvili su program sposoban da pobedi jednog od najboljih svetskih igrača go-a. Ovo dostignuće je bilo utoliko spektakularnije jer se radi o izuzetno složenoj igri, a i zato što je tokom igranja teško meriti koliko ste napredovali.

Nekoliko je različitih grupa istraživača bilo fokusirano na borbu protiv pokeraša „od krvi i mesa“. Još jedan akademski tim, i to s Univerziteta Alberta u Kanadi, Karlovog Univerziteta i Češkog tehničkog univerziteta u Češkoj nedavno je razvilo program zvani Deepstack koji je već potukao nekoliko profesionalnih igrača u heads-up no-limit Texas Hold’em pokeru (videti članak “Poker je najnovija igra u kojoj se iskušava moć veštačke inteligencije”). Međutim, kaže Sandholm, igrači uključeni u meču protiv Libratusa su daleko jači, a takođe imaju mogućnost da igraju daleko više ruku protiv mašine; ovo bi trebalo da obezbedi veći značaj statističkih rezultata.

Tehnike koje se  koriste za izgradnju još pametnijih poker-bota može naći daleko veću primenu u stvarnom svetu. Teorija igara je već primenjivana na istraživanju o združenim hakerskim napadima i sajber-bezbednosti, takođe našavši svoju primenu u automatizaciji navođenja taksi-vozila kao i robotskog planiranja, kaže Sem Gancfrid (Sem Ganzfried), docent na Međunarodnom univerzitetu Florida u Majamiju, koji je bio uključen i u razvoj Klaudika.

Međutim, iako Libratus trijumfuje, to ne znači da ljudi više ne zaslužuju da imaju svoje mesto za pokeraškim stolom. Multiplejer verzijom no-limit Texas Hold’em pokera ne može se ovladati ukoliko koristite tehnike koje koristi Libratus.

Will Knight MIT tech-review Jan 23, 2017