Utorak, 16 srpnja, 2024
spot_img

Zadnje objave

Možda vam se sviđa

Znate li što je Simpsonov paradoks?

Simpsonov paradoks nastaje kada odvojene grupe podataka pokazuju jedan trend, a kada se podaci grupiraju, trend se potpuno obrne.

Uzmimo primjer u kojem se preko vikenda natječete s prijateljem u rješavanju kviza. Kviz ima 10 istih pitanja, te i vi i prijatelj imate subotu i nedjelju da na njih odgovorite. Pobjednik je onaj koji je točno odgovorio na veći procenat pitanja nakon proteka 2 dana.

Rezultati vašeg natjecanja su po danima kako slijedi:

  • Subota: vaš prijatelj je odgovorio na 100% pitanja koje je rješavao, a vi ste odgovorili 87,5%
  • Nedjelja: vaš prijatelj je odgovorio na 62,5% pitanja, dok ste vi odgovorili na 50%

Tko je pobjedio u ukupnom natjecanju – vaš prijatelj ili vi? Ako mislite da je pobjedio vaš prijatelj jer je bio uspješniji promatrano po pojedinačnim danima, žrtva ste Simpsonovog paradoksa. Pogledajte zašto.

Vi ste u subotu odgovarali na 8 pitanja, i riješili ste ih 7 od 8, što je 87,5%. Vaš prijatelj je istog tog dana odgovarao na 2 pitanja, i oba je točno riješio, pa je njegov omjer 2 od 2, ili 100%.

Simpsonov paradoks ilustracija financaba
Simpsonov paradoks ilustracija financaba

U nedjelju ste vi odgovorali na 2 pitanja, i točno se odgovorili na 1 od 2, što je 50%. Vaš prijatelj je u nedjelju odgovarao na 8 pitanja i odgovorio je točno na 5 od 8, što je 62,5%.

Iako su % uspješnosti promatrano pojedinačno po danima na strani vašeg prijatelja, pobjedili ste vi, jer ste ukupno u subotu i nedjelju odgovorili na 8 od 10 pitanja ili 80%, dok je vaš prijatelj odgovorio na 7 od 10 ili 70% pitanja.

Simpsonov paradoks – nastanak imena

Iako bi to bilo simpatično, Simpsonov paradoks nije vezan uz kultni animirani film Simpsoni. Ime je dobio po engleskom statističaru Edvardu Simpsonu.

Simpsonov paradoks je statistički fenomen. Prema stanfordskoj enciklopediji, na ovaj fenomen prvi su ukazali Karl G. Pearson (1899.) i George U. Yule (1903.), no, pošto se tek  u Simpsonovom kratkom radu “Tumačenje interakcije u tablicama kontingencije” (1951.) raspravljalo o tumačenju takve povezanosti preokreta trenda, fenomen je nazvan“Simpsonov paradoks”.

Primjeri Simpsonovog paradoksa

Mnogo je primjera ovog fenomena u stvarnom životu. Dešava se u sportu, a često citirani je primjer baseballa, u kojem su igrači Derek Jeter i David Justice. Naime, kao i u našem hipotetičkom primjeru, David Justice je u 1996 i 1997 (kada godine promatramo odvojeno) bio uspješniji od Dereka Jetera. Međutim, promatrano kumulativno ove dvije godine, Derek Jeter ima veću stopu uspješnosti.

U tenisu je, zbog načina bodovanja, moguće osvojiti manje pobjedničkih poena nego protivnik, a ipak osvojiti više setova i pobjediti. Dakle, bilo bi rizično zaključiti tko je pobjednik meča promatrajući samo broj poena koje je igrač osvojio.

Navodi se i pojava Simpsonovog paradoksa u statistici umrlih od COVID-19 virusa. Naime, jedna statistika je pokazala da je veći postotak umrlih među vakciniranima nego među ne-vakciniranima. Međutim, tek se analizom strukture vakciniranih ljudi, došlo do zaključka da su se stariji ljudi značajno češće odlučivali vakcinirati neglo mlađi. To objašnjava veću stopu smrtnosti među vakciniranom populacijom.

Kako se nositi sa Simpsonovim paradoksom

Neprepoznavanje ovog fenomena može vas dovesti do toga da smatrate činjenicama podatke koji to – nisu. Ne postoji jednostavna i univerzalna formula kako izbjeći upadanje u zamku, ali evo nekoliko savjeta:

  1. Podaci su samo podaci. Tek njihovim adekvatnim tumačenjem dobijemo korisne informacije. Moramo znati više o tome kako i u kojem okruženju su podaci nastali da bismo mogli zaključivati (npr. moramo znati pravila teniske igre da bismo mogli preispitati automatski zaključak da igrač sa više dobijenih poena uvijek osvaja meč). Moramo znati priču iza podataka.
  2. Odvajanje podataka u podgrupe ili grupiranje podataka – ovisno o situaciji – može nam pomoći da uočimo suprotne trendove. I dalje moramo voditi računa da saznamo priču iza podataka, ali suprotni trendovi su već indikator da paradoks postoji. Ako znamo priču iza, možemo zaključiti koji je trend ispravan
  3. Za odvajanje podataka u grupe trebamo koristiti neku karakteristiku. U slučaju COVID primjera, uz podatak vakciniran – nevakciniran, korišten je treći podatak, a to je starost (godine). Odabir te treće karakteristike kojom “razbijamo” podatke u grupe, također ovisi od toga znamo li “priču iza podataka”, i šta je uopće bio cilj skupljanja podataka

Autor: financa.ba

Prijavite se na naš Newsletter

Popularno