“Postoje tri vrste laži: laži, proklete laži i statistika”, rekao je Mark Twain. Zašto je statistika, kao grana primijenjene znanosti, na tako lošem glasu?
Svjesni toga ili ne, većinu dana smo izloženi statističkim podacima i informacijama koje utječu na naše ponašanje i odluke koje donosimo. I sami smo dio različitih statistika:
- Ako smo jutros pogledali vremensku prognozu, vjerojatno smo obratili pažnju i na statističku vjerojatnoću da će pasti kiša. Većina web stranica i aplikacija koje se bave prognozom to pokazuju
- Na upravljačkoj ploči našeg automobila smo možda pogledali statistiku o prosječnoj brzini i prosječnoj potrošnji goriva
- Prosječni korisnik društvene mreže pogledao je statistiku lajkova svojih objava. A i sam je dio nečije statistike
- Ovisno o vrsti posla koji radimo, vrlo je izgledno da smo se danas koristili statistikom. Ili smo barem bili dijelom statistike dolaska na posao
- Ekonomska statistika koja nam sugerira da li smo u recesijiRecesija (engl. recession) predstavlja povremena usporavanja..., ili rastemo, uvozimo li više ili izvozimo je dio naše svakodnevnice
- Bogat sportski program koji trenutno gledamo, obiluje statistikom točnosti dodavanja, slobodnih bacanja, posjeda lopte i slično
- Ankete i istraživanja o popularnosti političara ili političkih stranaka, posebno u predizborno vrijeme, omiljena je primjena statistike izbornih stratega i medija, i u pravilu je različiti sudionici različito tumače
Kako nešto tako sveprisutno kao statistika, koja je uz to i primijenjena znanost, može izazivati različite emocije i kontroverzna tumačenja? Tako čujemo kako su predizborne ankete namještene, ekonomska statistika netočna i još ne znamo jesmo li u recesiji. Ili da je statistika o broju stvarnih ljudi na Twitteru “napuhana” radi čega se otkazuje dogovor o prodaji vrijedan milijarde dolara? Odnosno pokušava otkazati.
Većina se razloga za kontroverze oko statistike može svrstati u 3 grupe:
- Loši/pogrešni podaci
- Pogreške u statistici
- Tendencioznost u tumačenju
Recimo po nešto o svakoj grupi, ali i o tome kako ograničiti negativan utjecaj svake od njih.
1. Loši podaci – ako je ulazni podatak smeće, smeće će biti i izlazni (“Garbage IN, Garbage OUT”)
Teško je dobiti točan rezultat statističke obrade ako su ulazni podaci netočni. Primjeri su nebrojeni: ako su netočni podaci o godišnjim temperaturama, netočna će biti i statistika o kretanju 50-godišnje temperature. Ako su prikupljeni točni podaci potrebni za popis stanovništva, ali su pogrešno unijeti u software koji ih obrađuje, netočni će biti izlazni rezultati,… i tako u nedogled.
Bez obzira jesmo li korisnici gotove statističke analize, ili smo mi ti koji pravimo statistiku (jednostavnu ili složenu), trebali bismo voditi računa o sljedećem:
- Kvalitet podataka s kojima radimo je presudan za točnost i kvalitet rezultata statističke obrade
- Što više vremena uložimo u „čišćenje“, organiziranje i dovođenje podataka na visoku razinu kvalitete, rezultati će biti kvalitetniji
- Kod kreiranje statistike (modela, analiza, izvješća…) obično vrijedi Paretov prinicip.Približno 80% vremena bi trebali potrošiti na čišćenje i organiziranje podataka, te njihovo dovođenje na potrebnu razinu kvaliteta, a tek 20% vremena na samu izradu statistike
- Ako nam je neka statistička analiza kao korisnicima jako bitna, uvijek je dobra ideja saznati nešto više o tome kakav je bio proces prikupljanja podataka, te na koji način je osigurana njihova kvaliteta
2. Pogreške u statistici
Ovdje ćemo se zadržati na logičkim pogreškama u statistici (nećemo elaborirati pojam „statističke greške“ koji je u statistici točno kvantificiran i određen). Navesti ćemo neke od njih:
Nereprezentativan uzorak
U statističkim analizama najčešće nije moguće analizirati čitavu populaciju podataka i donijeti zaključke na temelju takve analize, već je potrebno uzeti uzorak, analizirati ga (ili napraviti model na temelju njega) i na temelju takve analize donijeti zaključak za čitav skup podataka. Primjer: kada agencije za istraživanje tržišta nekog proizvoda, ili agencije za istraživanje popularnosti neke političke stranke žele napraviti analizu u npr. Bosni i Hercegovini, one nisu u stanju skupiti povratne informacije od 3 milijuna ljudi, već uzimaju uzorak od 300-1000 ljudi, naprave anketu, i onda donose zaključke na temelju analize tog uzorka.
Metoda uzorkovanja je logična i uobičajena, međutim, opasnost postoji ako uzorak nije reprezentativan. Odnosno, ako uzeti uzorak ne predstavlja na najbolji način ukupnu populaciju (u našem slučaju, stanovništvo BiH). Primjer: ako smo za uzorak kojim želimo zaključiti o popularnosti neke političke stranke uzeli samo mlade ljude starosti od 18 – 25 godina koji žive u gradu, naš uzorak nije reprezentativan, jer bismo trebali znati da u BiH žive i stariji ljudi, i to ne samo u gradovima. Zaključak koji ćemo donijeti za čitavu BiH na temelju analize takvog uzorka vjerojatno će biti pogrešan.
Dakle, poruka je jasna, uzorak podataka treba, što je moguće više, predstavljati čitavu populacije koju istražujemo.
Sklonost uzimanja podataka koji zadovoljavaju samo određene kriterije
Kad su u Drugom svjetskom ratu inženjeri dobili zadatak da ojačaju zrakoplove dodatnim oklopima na mjestima koja su najranjivija (da bi se što više smanjilo uništavanje zrakoplova), analizirani su samo zrakoplovi koji su preživjeli borbu i vratili se u bazu. Analizom je utvrđeno da su ti preživjeli zrakoplovi imali rupe od metaka na skoro svim dijelovima. Osim na kokpitu i motoru.
Iako je bilo prijedloga da se oklop ojača na mjestima koja su najviše puta pogođena, takvo zaključivanje bi bilo velika greška. Iz razloga jer su avioni koji su pogođeni na ta mjesta preživjeli i vratili se u bazu. Zato su inženjeri pametno pretpostavili da preživjele zrakoplove treba ojačati na mjestima koja nisu pogođena (motor i kokpit). Budući da su avioni koji nisu preživjeli vjerojatno pogođeni upravo na ta mjesta, to je i bio razlog što su bili oboreni i nisu se vratili.
Sklonost uzimanju u obzir samo podataka koji su preživjeli neki kriterij (u našem slučaju to su samo avioni koji su se vratili u bazu, dok su srušeni avioni mogli biti zanemareni) može prouzročiti totalno pogrešne zaključke i akcije.
Pogrešna uzročno-posljedična veza
U zadnjih 150 godina globalno zagrijavanje kontinuirano raste, dok je broj gusara u kontinuiranom padu. Iako je i jedna i druga tvrdnja točna, nitko razuman ne bi pretpostavio da je globalno zagrijavanje uzrokovano padom broja gusara, niti da bi povećanje broja gusara zaustavilo globalno zagrijavanje.
Međutim, često se desi da se uspostavi pogrešna uzročno – posljedična veza, i da se tvrdi da dva događaja koja su nepovezana imaju međusobni utjecaj zato šte se čini da su u korelaciji. U stvarnosti, oba događaja mogu biti uzrokovana nekim sasvim trećim faktorom ( u našem slučaju, industrijalizacija je vjerojatno uzrok obje pojave).
Zabluda McNamare
Oslanjanje isključivo na izolirane statističke brojke, može uzrokovati gubljenje šire slike u kompleksnim situacijama. Primjer je američki ministar obrane za vrijeme Vijetnamskog rata – Robert McNamara. On je vjerovao da se istina može naći isključivo u statističkim podacima. Uspjeh rata je zato mjerio brojem poginulih Vijetnamaca. Pri tome je potpuno zanemario činjenice o promjeni stava o ratu u SAD, kao i o raspoloženju u Vijetnamu. Rezulata je da su njegovi zaključci bili, u dobroj mjeri, u suprotnosti sa realnošću.
3. Tendencioznost u tumačenju rezultata
Ovo je vjerojatno najveći razlog za nisko povjerenje u statistiku. Kada jedan političar kaže da je zaposlenost porasla, a drugi, gledajući u te iste podatke, kaže da je zaposlenost pala, neko od njih iskrivljuje istinu (blago rečeno). Takvo ponašanje šteti njegovom ili njezinom ugledu, ali nažalost i ugledu i povjerenju u statistiku.
Kada ljudi svjesno manipuliraju statističkim podacima ili informacijama da bi ostvarili svoje ciljeve i potvrdili svoje mišljenje, to onda izlazi iz domena logičke pogreške. A ulazi u područje manipulacije.
Ako podatke „mučimo“ dovoljno dugo, na kraju će priznati ono što želimo. Namjerno biranje samo onih podataka koji potvrđuju naše mišljenje i služe našim interesima, nas čini manipulatorima. A statistiku alatom za manipulaciju i nepravedno srozava njezin ugled kao primijenjene znanosti.
Statistika je korisna i zanimljiva znanost. Koristimo je, i pod njezinim smo utjecajem, i više nego što smo svjesni. Ako se upotrebljava ispravno i čestito, može biti koristan alat za donošenje dobrih odluka.
Autor: uredništvo Financa.ba
Prilikom preuzimanja ovog članka obvezno navesti financa.ba kao izvor i poveznicu (link) na članak