Računari i kocka: svet bez ljudi

Kompjuteri danas lako mogu da blefiraju poput istinskih šampiona u pokeru – zapravo, nesagledivo bolje od svih njih. Tekst donosi Wall Street Journal.

Novi program veštačke inteligencije nazvan Pluribus je toliko napredan u ključnoj ljudskoj veštini – obmanjivanju – da je bukvalno zbrisao pet pokeraša i to u samo jednoj, zapravo prilično lošoj ruci, ni sa kakvim kartama. “Protiv mašine? Nema šansi”.

Jedan super-računar izvodi trilione kalkulacija ne bi li usavršio jednu nedostižnu veštinu: blefiranje.

„Bilo je (za nas pokeraše) veoma beznadežno. Ne osećate kao da postoji išta što biste mogli da učinite kako biste pobedili mašinu”, rekao je Džejson Les koji profesionalno igra poker već 15 godina, a koji je u nadmetanju s veštačkom inteligencijom uvek nanovo nasedao na blefove robota za poker.

Istraživači na Fejsbuku i Univerzitetu Karnegi Melon do sada su izgradili najefikasnijeg “neljudskog” blefera. Bot, nazvan Pluribus, predstavlja nesaglediv skok u sposobnostima veštačke inteligencije – a takođe i u lukavosti vrhunskih igrača pokera.

Sistemi za veštačku inteligenciju razvijeni u akademskim i korporativnim laboratorijama imaju zabrinjavajuće dobre rezultate dok se nadmeću protiv ljudi u igranju njihovih igara. Pluribus, opisan u radu objavljenom u časopisu Science, prati digitalne korake nadljudskih AI koji su potukli ljude u igrama kao što su dame, šah, Jeopardy, Dota-2 i Go. Pre dve godine, još jedan AI sistem razvijen na Karnegi Melonu, nazvan Libratus, čak je nadmudrio veliku pokerašku zvezdu. Ali Libratus je tada pobedio samo jednog čoveka – u igri s dva igrača – u borbi “jedan na jedan”. Pluribus je pobedio pet protivnika istovremeno – bez i kapi znoja.

Prema rečima njegovih kreatora, novi bot koristi manje od 128 gigabajta memorije dok igra a funcionisao je samo na dva čipa. Za razliku od toga, Libratus je koristio 100 čipova u svojim poker mečevima jedan na jedan. AlphaGo, razvijen od strane kompanije Google DeepMind Alphabet, koristio je 1.920 čipova (!) u odnosu na ljudskog Go igrača. Deep Blue, računar korporacije International Business Machines koristio je 480 prilagođenih čipova protiv šahovskog prvaka Garija Kasparova. DeepMind je odbio da komentariše. IBM nije odmah odgovorio na zahtev za komentar. Pluribus nije pokušavao da predvidi kraj igre; igranje pokera protiv više protivnika značilo je da mora da bude u stanju da razmišlja u realnom vremenu, rekao je Noam Braun, naučnik angažovan na odeljenju za razvoj veštačke inteligencije u Fejsbuku i jedan od kreatora Pluribusa.

Igranje pokera protiv više igrača smatra se manje igrom a više jednom vrstom umetnosti koja zahteva mnoštvo veština, a posebno sposobnost prepoznavanja ljudskih interakcija i iskorišćavanja tog znanja u cilju pronalaženja čovekovih grešaka i slabosti. Pluribus je u pokeru razvio svoju pobedničku strategiju i veštine blefiranja bez premca, igrajući trilione ruku protiv još pet drugih klonova, rekao je dr Braun. Ako bi ovo rezultiralo pobedama, bot bi se verovatno odlučio za takve poteze u budućnosti. Digitalni mozak Pluribusa je shvatio da može da pobedi tako što će napraviti opkladu kada je imao slabu ruku, prisiljavajući svog protivnika da odustane – što ga je, takođe, naučilo da bi i u budućim partijama trebalo da blefira, rekao je dr Braun. Zatim je koristio te lekcije da bi donosio odluke u realnom vremenu tokom nadmetanja protiv vrhunskih “ljudskih” igrača, od kojih je svako od njih u svojoj profesionalnoj karijeri zaradio više od milion dolara.

“Ljudi gaje predstavu kako je [blefiranje] vrlo ljudska sposobnost – da se tu radi o nekom unakrsnom ‘streljanju očima’ među kockarima za stolom”, rekao je Braun. „A radi se, zapravo, o matematici, i to je ono o čemu se i ovde radi (u pokeru između AI i ljudi). Možemo da napravimo AI algoritam koji je sposoban da blefira bolje od bilo kog čoveka. ”U jednoj partiji protiv pet pokeraša “od krvi i mesa”, Pluribus je dobio asa i dvojku tref, dakle daleko od neke iole solidne ruke. Počelo je podizanjem uloga na $250, što je standardni potez. Dva čoveka su platila i zvala dalje, preostala dvojica su bacila karte, na ukupan ulog koji je tada u potu iznosio 800 dolara. Razdeljene su sledeće tri zajedničke karte, dečko pik, petica karo i pop tref. (U Teksas Hold ’em verziji pokera igračima budu podeljene dve karte, a sledeće karte dele svi igrači zajedno). Jedan od “živih” igrača je tražio dalje, a Pluribus je blefirao i podigao ulog za 800$ (Hold ’em je vrsta pokera u kojoj igrač koristi bilo koju kombinaciju pet karata na stolu koje su zajedničke svim igračima, tzv, “community cards” board, i dve u posedu igrača – hole cards, pocket cards – za razliku od drugih vrsta pokera u kojima svaki igrač dobija samo sopstvene karte).

Sledeći igrač je sklopio svoje karte i odustao, dok je onaj naredni platio. Sledeća karta je bila trojka herc, što je ubilo šanse bota da dobije fleš. Još uvek je imao tanku šansu ako bude imao sreće sa poslednjom kartom. Bot je išao na blef podižući ulog u potu na $2,400, a poslednji čovek u partiji, Linus Loelidžer je pratio podizanje uloga i platio. Konačna zajednička karta bila je osmica pik. Po svemu sudeći, izgledalo je kao da će Pluribus najverovatnije izgubiti tu ruku, ali je AI tada uložio sav novac, pozivajući Loelidžera sa svim svojim čipovima u vrednosti od $6,550. Loelidžer je odustao i sklopio svoje karte. Imao je desetku karo i kralja karo, što važi za jaku ruku. Po teoriji verovatnoće – on bi pobedio.

Loelidžer nije bio dostupan za komentar. Profesionalni igrači pokera kažu da je “nepredvidljivost ono što je igranje protiv Pluribusa učinilo toliko teškim. A tu je, takođe, i suština napretka, kažu stručnjaci. Mašina je u stanju da koristi samu suštinu pokera – neizvesnost – tako što pritom upotrebljava i – matematiku. Les, drugi profi pokeraš koji je izgubio od Pluribusa i koji je takođe bio “ispresavijan” i od njegovog prethodnika, Libratusa, rekao je da su potezi novog bota bili agresivni. Razvoj veštačke inteligancije “napreduje bržim tempom nego što su ljudi u stanju da shvate.”

Naučnici su zainteresovani za stvaranje veštačke inteligencije koja je u stanju da suvereno igra igre poput pokera ili, recimo, StarCrafa, koje vrcaju od neizvesnosti jer su, na neki način, odraz “mikrokosmosa” onoga što predstavlja realni svet – onoga što je nepredvidivo. Tradicionalno, AI je doskora imala problem sa situacijama u kojima je prevladavala neizvesnost, ograničavajući raspon primena, tvrde AI stručnjaci.

U pokeru, “postoji informacija koja je skrivena, a da stvar bude gora, vaš protivnik zna stvari koje ne poznajete”, rekao je Tomas Sandholm, profesor Univerziteta Karnegi Melon i programer Pluribusa. “Morate da strašno dobro porazmislite o tome da li vaš protivnik pokušava da vas prevari ili vas može potući adutima.”

Što je više protivnika, to je više skrivenih informacija s kojima AI treba da se suoči. U nekim ranijim pokeraškim susretima čoveka sa mašinom, igrači koji su igrali poker takođe su imali mogućnost da blefiraju, rekao je Sandholm, ali je (kako čoveku tako i mašini) daleko teže da uspešno blefira kada žonglira sa više protivnika.

Poker omogućava istraživačima da testiraju algoritamske strategije za rad sa nepoznatim i da izgrade temelje za softver koji može “nanjušiti” prevaru i obmanu u stvarnom okruženju. Sandholm je uključen u dva startupa, Strategy Robot Inc. i Optimized Markets Inc., koji koriste tehnologiju sličnu onoj koja je ugrađena u Pluribus za svrhe odbrane, finansijskih usluga, igranje igrica ili zdravstvenu zaštitu. U Fejsbuku kažu da nemaju bilo kakve neposredne planove da tu tehnologiju komercijalizaciju.

„Jedna solidna AI ima smešno nepoštenu prednost u odnosu na ljude: ona se ne umara. Nije gladna, i nema emocija“, rekao je Majkl Galjano, profesionalni poker igrač sa 11 godina iskustva koji je takođe izgubio od Pluribusa. Uspešno igranje zavisi od veštine, ali i od toga kako se igrači nose sa umorom i stresom, rekao je Galjano.

Veliki deo igre sastoji se od sposobnosti veštačke inteligencije da iskorišćava manjak čovekove mentalne i fizičke izdržljivosti, neprestano ih prisiljavajući da prave greške. “Algoritam to ne radi. Samo sedi i čeka”, kaže Galjano. “Svaki put kada se okliznete… mašina će vam pokupiti novac.” Galjano je rekao da ga je iskustvo učinilo svesnijim da poker, kao i ostatak naših života, postaje sve više “utopljen” u okean podataka.

“To me je nagnalo da razmišljam o teoriji pokera i matematici u svakodnevnim situacijama”, rekao je Galjano. “Umesto da igrate protiv igrača, držite se statistika.”

Daniela Hernandez, Wall Street Journal

Pavle Bašić 帕夫莱·巴希奇

The Wor(l)d of Pavle!

Računari i kocka: svet bez ljudi

Like this:

Leave a ReplyCancel reply

Share this:

Like this:

Leave a ReplyCancel reply

Discover more from Pavle Bašić 帕夫莱·巴希奇