Big Data i biznis: Kako izvući smisao i korist  iz gigantskih baza podataka?

Koliko je vremena potrebno da se oporavite od hirurškog zahvata zamene kuka?

Za bolnice širom sveta ovo  nipošto nije akademsko pitanje. Bolnice su imale oko 36 milijardi dolara nekompenzovanih troškova zbrinjavanja u 2015. godini. Najveći deo njih potiče od neplaćenih računa pacijenata.

Jedno rešenje ovog problema je ograničavanje troškova vezanih za operaciju – ali kako? Odgovor: Machine learning („Mašinsko učenje“ je već uvrežen termin u srpskom jeziku, mada je pogrešan; „Učenje mašina“ daleko preciznije pogađa suštinu). Bolnice sada koriste prediktivnu analitiku kako bi prognozirale prosečne boravke i potencijalne komplikacije koje mogu iskrsnuti tokom operacija, poput operacije kičme.

Na primer, podaci od kupaca usluga zdravstvene zaštite pokazuju starosnu dob pacijenta, ustanove koje obezbeđuju osnovne zdravstvene usluge, i sekundarnu dijagnozu. Pomoću mašinskog učenja i prediktivne analize podaci sada mogu predvideti buduće troškove i doprineti identifikovanju pacijenata koji mogu imati probleme u oporavku. Ishod? Bolnice donose bolje kliničke odluke, doživljavaju niže stope readmisije, nudeći kraće bolničke boravke i pružajući bolju negu.

Biznisi ogromnog broja preduzeća pokazuju slične efekte „stvarne situacije na terenu“, dakle, dobijaju realističnije cifre u predikciji, a sve to zahvaljujući upotrebi mašinskog učenja za analiziranje svojih poslovnih podataka. Često je problem u nedovoljnoj količini podataka – potrebnih za što bolju analizu i predikciju – a ti im podaci često nedostaju.

Po rečima Majka Gotjerija (Mike Gaultieri), analitičara kompanije za tehnološku predikciju marketinga i tržišta, Forrester Research, mašinsko učenje nije ni nalik tradicionalnoj poslovnoj inteligenciji u kojoj su garantovani rezultati. “Ukoliko tražite model za mašinsko učenje, možete reći ‘pokušaću’, ali možda nećete uspeti”, rekao je. “Preduzeća i biznisi moraju da razumeju da samo zato što ste želeli da imate model koji predviđa kretanje akcija na berzama ne znači da ćete ga i u stvarnosti imati.”

Rags Raghavendra, rukovodilac analitike u DXC Technology’s Analytics Data Labs, globalnom čvorištu koje analitičari podataka koriste, fokusirao se na konsalting i pronalaženje načina operacionalizacije analitike. On kaže da su “kompanije frustrirane jer često preteruju”. Žele da im big data analitika “odradi” prevelike grupe podataka, “žonglirajući” njima iako nisu dovoljno kvalifikovani za njihovo tumačenje i razumevanje, a i ne shvatajući koliko je taj zalogaj prevelik.  “Klijenti pokušavaju da učine nemoguće u smislu pokušaja da izvuku značenje iz svih mogućih vrsta podataka kojima imaju pristup”, rekao je on. “Ono što preporučujemo je da dobro razmotre podatke koje već poseduju i koji su lako dostupni, a tek potom da pređu na sledeći korak.”

Kompanije koje su pokušale i nisu uspele da proniknu u smisao i praktične aspekte analize velikih skupova podataka pre svega bi trebalo da prihvate da su neuspeh i iteracija tj ponavljanje neizostavni deo procesa analitike. One, ipak, mogu da svoje šanse za uspeh maksimiziraju tako što će postati pametniji kada je reč o korišćenju mašinskog učenja.

Evo osam načina za bolji i efikasniji pristup Big data analitici:

1. Počnite s problemom koji želite da rešite. Uranjati u podatke „skokom sa desetke“ a potom iščekivati da će oni volšebno izroniti pred vas je pogrešan pristup. Sve dobre priče o analitici podataka počinju identifikovanjem odgovarajuće metrike performansi koja povezuje poslovni rezultat sa pitanjima koja se odnose na podatke. Međutim, odabrana metrika ne bi trebalo da bude preširoka ili isuviše “granularna” tj usitnjena. Na primer, kada je DXC nedavno radio s jednom medijskom kompanijom na pojašnjenju razloga zbog kojih je pretplatnici napuštaju, najočiglednija metrika bila je promena u pretplatničkoj bazi. Kao što se ispostavilo, relevantnija metrika bio je Prosečni prihod po korisniku (ARPU), koji je bio direktno povezan sa većim poslovnim ciljevima koje je kompanije preduzimala kako bi povećala prihode.

2. Proces mašinskog učenja trebalo bi ’industrijalizovati’ odnosno razviti u širokom industrijskom obimu. “Čitav ovaj proces analize velikih skupova podataka nije industrijalizovan”, rekao je Raghavendra, čija Laboratorija podržava široku paletu oblasti, uključujući proizvodnju, telekomunikacije, automobilsku industriju, avio-kompaniju, energetiku, finansijske usluge i zdravstvenu zaštitu. “Dešava se da mnogo puta iznova i iznova ponavljate analizu ili je ne možete uvećati tj primeniti u širem obimu.” DXC je snažan zagovornik efikasnog i pojednostavljenog pristupa široko primenjivog mašinskog učenja, koji veruje da bi sve faze analize – od unošenja podataka i njihovog prečišćavanja, do stvaranja namenskih algoritama i njihovog stavljanja u proces aktivne analitike, a potom i generisanju uvida stečenih kroz podatke – trebalo da budu ponovno upotrebljive i raspoređene na kompanijske tehnologije.

3. Nemojte dozvoliti da vas ometaju i koče podaci koje ljubomorno čuva svako odeljenje pojedinačno unutar kompanije (tzv „silosi“:  izolovane grupe podataka koje ne cirkulišu u data analitici jedne kompanije jer uposlenici nekog odeljenja naprosto ne žele da ih dele s drugima, misleći da na taj način „drže prednost“ u odnosu na druga kompanijska odeljenja). Silosi su zbog toga veliko “prokletstvo” brojnih računarskih programa koji rade na korporativnoj analitici, jer sprečavaju pristup jedinstvenoj bazi podataka. Silosi, ipak, nisu toliko velika prepreka, kako neki veruju. “Ukoliko posedujete strategiju za pravilno korišćenje pametnih podataka i platformi, ne bi trebalo da previše brinete o silosima”, kaže Raghavendra. Jednostavno rečeno, ne morate brinuti o silosima sve dok ne predstavljaju problem za zadatak koji ste odabrali da rešite. Međutim, trebalo bi da se pripremite za neki predstojeći skup problema u nizu (tzv pipeline*) tako što ćete obezbediti integraciju različitih izvora podataka. “Postoje fleksibilne i modularne platforme koje vam omogućavaju da integrišete podatke kada je potrebno”, dodao je Raghavendra. (U računarstvu, pajplajn* je skup elemenata za obradu podataka povezanih u niz, pri čemu je autput jednog elementa input sledećeg. Elementi u nizu često se procesiraju paralelno ili kroz sekvence tj „komadiće“; u tom slučaju, određena količina buffer tj pufernog skladišta često se ubacuje između elemenata).

4. Mislite od-spolja-ka-iznutra. Ne morate uvek imati sve informacije, talenat, analitiku i inteligenciju: Ovo je priča o ekosistemu, a pobediće oni koji dodirnu „matricu sposobnosti“ koja se nalazi oko njih. Analitičari podataka kroz kraudsorsing*, kao i kroz „mašinsko učenje-kao-servis“ i eksterne skupove podataka, dobijaju moćan potencijal u poslovoj trci.

Crowdsourcing (angažovanje javnosti) je korišćena i legitimna metoda preuzimanja tuđih ideja, postupak dobijanja potrebnih usluga, ideja ili podataka od neodređenog skupa ljudi (shodno izreci: “Uzeti podatke od pojedinca je krađa, uzeti podatke od većeg broja ljudi je – istraživanje”).

5. Koristite sirove skupove podataka (takozvana „data-jezera“). Jezera podataka su spremišta u kojima možete sačuvati sve vaše postojeće podatke u izvornom obliku, bez obzira na njihov format Jezero podataka je spremište za skladištenje podataka koje sadrži ogromnu količinu sirovih podataka u svom izvornom formatu, sve dok se za njima ne ukaže potreba. I dok hijerarhijski organizovano skladište podataka čuva podatke u fajlovima ili fasciklama (folderima), data-jezero koristi “ravnu”, tj. horizontalnu ili baznu arhitekturu za čuvanje podataka, dakle bez hijerarhije (organizacije) podataka. Svakom elementu podataka u data-jezeru dodeljen je jedinstveni identifikator i označen je skupom proširenih oznaka metapodataka. Kada se pojavi upit od strane biznisa, data jezero se može upitati za relevantne podatke, a zatim se može analizirati manji skup podataka kako bi se odgovorilo na upit).

Raghavendra je mišljenja da kompanije treba da se upuste u praksu stavljanja svih svojih podataka u „data-jezero“. Ovi veliki skupovi sirovih podataka nisu stavljeni u fajlove niti su klasifikovani u foldere po važnosti, već su „u rinfuzu“, iako su svi indeksirani i tagovani kao metadata, spremni da se pojave na upit poslovnog subjekta. “Nemojte razmišljati o strukturiranju (važnosti, smisla i korisnosti podataka) na samom početku”, preporučuje Ragavendra.

6. Vršite istraživačku analizu podataka (exploratory data analysis, EDA) sa ciljem kojeg imate na umu. Prva faza „rudarenja podataka“ je upravo EDA, koja nastoji da rezimira podatke, vizuelno i ne-vizuelno. “Ono što sam često imao prilike da vidim je da je istraživački deo analize podataka potisnut”, rekao je Bharathan Shamasundar, viši analitičar podataka u DXC. “Svrha EDA tj istraživačke analize podataka je da se upoznaju s uzorcima i obrascima koji se u podacima poavljuju i samo na osnovu toga zauzimaju stavove o tome šta da čine nakon toga. Kompanije to često rade površno. “DXC-ovo iskustvo sa kompanijom za energetske usluge naglašava važnost pametne EDA tehnologije.

Jedno privatno komunalno preduzeće tražilo je preciznu prognozu koliko će energije proizvesti njihove vetroelektrane. Zbog toga što je ovo preduzeće primenilo istraživački deo analize (EDA) na svoje algoritme, tim savetodavne firme DXC je uspešno opovrglo već postojeće repere za čak 95% performansi vetro-turbina, uprkos tome što je upotrebljavano manje varijabli kako bi obavili svoje proračune. To iskustvo pokazuje značajne potencijale EDA metoda, naročito ako se sprovedu unapred, što će češće dovesti do algoritama prikladnih raspoloživim podacima.

7. Koristite inteligentno uzorkovanje. Jedan od razloga što kompanije imaju problema s pristupom u prave uvide Big data ishoda je zato što ih – previše koriste. “Uzorkovanje je postalo loša reč”, rekao je Šamasundar. “Uzorkovanje podataka je pametan način baratanja sirovim podacima.” Često se dešava da je ono što izgleda kao “big data” krcato redundantnim tj izlišnim informacijama. Analitičari iz DXC su za jedno robno-trgovačko preduzeće identifikovali  kako im je veliki deo uskladištenih podataka bio, zapravo, suvišan, jer je 94% svih njihovih trgovinskih poslova zasnovano na manjem podskupu podataka. Ovo pokazuje da je vrednovanje kvaliteta i relevantnosti važna komponenta strategije podataka.

8. Ustanovite fleksibilan operativni model za vaš program analitike podataka. Raghavendra vam savetuje da „Nikako ne odustajete od pokretanja programa za analizu podataka samo zato što ne možete da unajmite data-analitičara. Potražnja za ekspertima koji umeju da pravilno i smisleno „pročitaju“ velike hrpe podataka  trenutno je 60 procenata veća od broja stručnjaka, a nema znakova da se ovaj disparitet usporava. Međutim, ukoliko jedno preduzeće nije u stanju da zaposli dovoljno data-analitičara, Raghavendra preporučuje da, u tom slučaju, treba razmisliti o uporednom korišćenju partnerskih organizacija koje pružaju specijalističku analitičku podršku i “analitičara opštih podataka o građanima”. Stručnjak za prekopavanje tj „rudarenje podataka“ o građanima je osoba koja razume domen i poslovanje svojih poslodavaca/organizacija. Oni mogu obaviti razumnu analizu koristeći neke analitičke platforme koje su sada pojednostavile određene zadatke i zahteve u baratanju podacima. Pošto kompanije primenjuju analitiku za rešavanje problema, partnerske organizacije mogu biti od pomoći  kao podrška u uvećanju obima njihovih programa i izgradnji „dubljih“ mogućnosti u još raznovrsnijim oblastima.

I mada praćenje ovih smernica povećava verovatnoću za postizanje uspeha, preduzeća ne smeju smetnuti s uma da je mogućnost neuspeha realna i uvek prisutna. Analitika podataka sprovodi se kao naučni metod koji se zasniva na dokazivanju ili opovrgavanju hipoteze. Upotrebu podataka treba, potom, posmatrati kao istraživačku i razvojnu aktivnost (R&D). “Najbolje je imati pet-šest ili desetak i više ideja, i potom ih voditi paralelno”, opisuje Goltjeri upite zasnovane na podacima, “jer neće svi oni funkcionisati”.

Izazovi će postajati sve teži i teži, kako se količina podataka vremenom bude sve više uvećavala. Sa druge strane, što više podataka imate – to je i veća potencijalna nagrada i uspeh.

Prema Dejvu Aronu (Dave Aron), šefu istraživanja u  londonskoj IT firmi za istraživačko-savetodavne usluge Leading Edge Forum, DXC-ovom partneru za rukovođenje idejnim strategijama, još je uvek previše kompanija koje svojom najvrednijom imovinom smatraju ono što poseduju u fizičkom i finansijskom smislu.

“Preduzeća koja bi trebalo da dožive uspon i uvećanje svojih profita u narednoj deceniji jesu ona koja su prepoznala da su upravo informacije i njihova analiza ta nadasve “vredna imovina”, pa stoga grade i kontinuirano unapređuju svoje platforme za data-analitiku i izučavanje podataka”, kaže Aron. “Internet stvari (IoT), uz sve obimniji i glomazniji pravni okvir za zaštitu podataka čine da data-analitika postane relevantnija nego ikada pre.”

Obezbeđivanje koristi od analize „big date“ – bez obzira da li ste bolnica ili uslužna firma ili bilo koji drugi tip biznisa – zahtevaće promišljen pristup, puno hrabrosti, kao i respekta za naučne metode analize informacija dobijenih u vašem poslovanju.

WIRED Brand Lab, DXC Technology