Contact

Daria Pašalić
Editor-in-Chief
Department of Medical Chemistry, Biochemistry and Clinical Chemistry
Zagreb University School of Medicine
Šalata ul 2.
10 000 Zagreb, Croatia
Phone +385 (1) 4590 205; +385 (1) 4566 940
E-mail: dariapasalic [at] gmail [dot] com

Useful links

Odabane teme iz biostatistike:

Marius Marusteri1*, Vladimir Bacarea2. Kako odabrati pravi test za procjenu statističke značajnosti razlike između skupina? Biochemia Medica 2010;20(1):15-32.
 
1Medical Informatics and Biostatistics Department, Academical Management & European Integration Department, University of Medicine and
Pharmacy Targu Mures, Romania
2Research Methodology Department, University of Medicine and Pharmacy Targu Mures, Romania
Corresponding author*: msmarusteri [at] yahoo [dot] com
 
Sažetak
 
Odabir pravog statističkog testa može ponekad predstavljati veliki izazov za početnika na polju biostatistike.
Ovaj članak opisuje postupak odabira testa za procjenu statističke značajnosti razlike između dvije ili više skupina. Potrebno je, primjerice, znati kojim tipom podataka raspolažemo (nominalni, ordinalni, intervalni/omjerni), kako su podaci organizirani, koliko je uzoraka/skupina i radi li se o zavisnim ili nezavisnim uzorcima. Također treba znati slijede li podaci iz populacije Gaussovu raspodjelu ili ne. Ključno je pitanje treba li se u slučaju kad su ispunjeni svi uvjeti primijeniti jednosmjerni ili dvosmjerni test, pri čemu je bitno napomenuti da drugi test ima jaču statističku snagu.
Ispravan pristup postupku odabira testa prikazan je u obliku pitanja i odgovora, kako bi se korisniku pružilo bolje razumijevanje osnovnog koncepta. Neki od neophodnih osnovnih koncepata su: statističko zaključivanje, statističko ispitivanje hipoteze, koraci neophodni za primjenu statističkog testa, parametrijski testovi nasuprot neparametrijskim te jednosmjerni nasuprot dvosmjernim testovima itd.
U završnom dijelu članka predložit ćemo algoritam za odabir testa, koji se temelji na ispravnom postupniku za izbor statističkog testa u svrhu statističke usporedbe jedne, dviju ili više skupina, kako bi pokazali praktičnu primjenu osnovnih koncepata.
Za neki drugi članak ostavit ćemo neke vrlo osporavane koncepte kao što su izrazito visoke ili izrazito niske vrijednosti i njihov utjecaj u statističkoj analizi, utjecaj vbrijednosti koje nedostaju itd.
 
Ključne riječi: statističko zaključivanje; statističko ispitivanje hipoteze; odabir statističkog testa
Pristiglo: 31. listopada 2009.
Prihvaćeno: 30. studenog 2009.
 
Uvod
 
Kako bi se odabrao ispravan statistički test pri analizi podataka, potrebno je barem:
dobro poznavati osnovne statističke termine i koncepte;
poznavati nekoliko aspekata povezanih s podacima sakupljenim tijekom istraživanja (npr. tip podataka – nominalni, ordinalni, intervalni ili omjerni, kako su podaci organizirani, koliko ima skupina (obično su to ispitivana i kontrolna skupina), jesu li skupine uparene ili nisu (zavisni/nezavisni uzorci) te slijede li podaci iz uzoraka ili uzoraka populacije normalnu raspodjelu);
dobro razumjeti cilj statističke analize;
raščlaniti čitav statistički postupak na dobro strukturirani postupnik za odabir ispravnog testa koji slijedi algoritamski način, kako bi se izbjegle neke pogreške.
Pitanja i odgovori koji slijede prikazat će, korak po korak, termine i koncepte potrebne za ispravan odabir statističkog testa.
Pitanje 1: Koji su osnovni termini i koncepti potrebni?
Odgovor 1: Zaključivanje iz premise je čin ili proces izvođenja logičnog zaključka o posljedici iz premise.
Statističko zaključivanje iz premise ili statističko izvođenje zaključka obuhvaća primjenu statistike i (slučajnog) uzorkovanja, kako bi se donio zaključak o nekom nepoznatom aspektu neke statističke populacije (1,2).
Tu vrstu statistike treba razlikovati od deskriptivnih statističkih testova (3) kojima se opisuju glavna svojstva skupine podataka u kvantitativnom smislu (npr. primjena mjera središnjice kao što su srednja vrijednost, medijan, mod ili pokazatelja rasapa kao što su varijanca, standardna devijacija itd). Deskriptivni se statistički testovi razlikuju od inferencijskih/induktivnih statističkih testova po tome što za cilj imaju kvantitativno sažeti skup podataka, a ne donijeti informaciju o populaciji koju predstavljaju.
Uporabom inferencijskih statističkih testova pokušavamo izvući zaključak o populaciji iz njenog (slučajnog) uzorka ili govoreći općenitije, o nekom njenom slučajnom procesu tijekom određenog vremena, kao što se može vidjeti i na sljedećoj slici (Slika 1.).
 
Slika 1. Primjena statističke analize na uzorku/uzorcima kako bi se donio zaključak o populaciji
 
Statističko zaključivanje iz premise može uključivati (3,4):
1. Procjenu vrijednosti, zajedno s korištenjem podataka iz uzorka kako bi se izračunala pojedinačna vrijednost koja treba služiti kao najbolja procjena za nepoznati (fiksni ili slučajni) parametar populacije (npr. relativni rizik (engl. relativerisk, RR) = 3,72).
2. Procjenu intervala – primjena podataka iz uzorka za izračun intervala mogućih (i vjerojatnih) vrijednosti nekog nepoznatog parametra, suprotno procjeni vrijednosti, za koju je rezultat jedan broj (npr. 95%-tni interval pouzdanosti (engl. confidenceinterval, CI) 95% CI za RR je 1,57-7,92).
     Moramo razumjeti da je ponekad moguće rabiti oboje vrste procjene (i vrijednosti i intervala) kako bi se donijeli zaključci o parametru neke populacije uzetom iz njenog uzorka.
     Ako definiramo istinitu vrijednost kao vrijednost dotične populacije koja bi se dobila idealnim mjerenjem bez pogrešaka bilo kakvog tipa, morat ćemo prihvatiti činjenicu da možda nikada nećemo znati koji parameter sadržava istinitu vrijednost populacije (4). Međutim, kombiniranjem ove dvije procjene možemo dobiti određeni stupanj pouzdanosti da će istinita vrijednost biti unutar tog intervala, čak i u slučaju da naš rezultat (procijenjen avrijednost) nije jednak istinitoj vrijednosti, kao što je prikazano na donjoj slici (Slika 2.).
 
Slika 2. Koncept istinite vrijednosti, procijenjene vrijednosti i intervala pouzdanosti
 
3. Predviđanje/prognozu- prognoziranje je postupak procjene u nepoznatim situacijama. Predviđanje je izjava ili tvrdnja da će se određeni događaj dogoditi u budućnosti te je to puno pouzdanije nego prognoziranje. Predviđanje je pojam vrlo sličan prognozi, no puno je općenitiji. Rizik i nesigurnost su ključni pojmovi kod predviđanja i prognoziranja.
4. Statističkoispitivanjehipoteze - zadnji, no time nikako nevažan i svakako najučestaliji način donošenja statističkog zaključka iz premise je statističko ispitivanje hipoteze. To je metoda donošenja statističkih odluka temeljem eksperimentalnih podataka i te se odluke gotovo uvijek donose pomoću takozvanih testova za ispitivanje nulte hipoteze.
     Nulta hipoteza (H0) formalno opisuje neke aspekte statističkog ponašanja skupa podataka i taj se opis smatra valjanim ukoliko to ponašanje podataka nije proturječno nultoj hipotezi.
     Zbog toga se nultoj hipotezi suprotstavlja druga hipoteza, takozvana alternativna hipoteza (H1). Statistički test u biti ispituje samo nultu hipotezu. Test ispitivanja nulte hipoteze ima oblik: „Ne postoji (statistički značajna) razlika između skupina“ za ispitivanje razlike i „Ne postoji povezanost“ za ispitivanje korelacije. Alternativna se hipoteza ne može potvrditi. Možemo samo odbaciti nultu hipotezu (u tom slučaju prihvaćamo alternativnu hipotezu) ili prihvatiti nultu hipotezu.
     Važno je shvatiti da većina statističkih protokola koji su u svakodnevnoj primjeni rabe jedan ili više testova za ispitivanje statističke hipoteze.
Pitanje 2: Zašto nam je potrebno statističko zaključivanje iz premise i njegov ključni princip – statističko ispitivanje hipoteze?
Odgovor 2: U kratkim crtama, zato što moramo na znanstveni način pokazati da je, primjerice, promatrana razlika između srednjih vrijednosti izmjerenih parametara tijekom pokusa na dva uzorka statistički značajna (4).
Statistički značajna razlika pojednostavljeno znači da postoji statistički dokaz te razlike; to ne znači da je razlika nužno velika, važna ili značajna u smislu korisnosti pronalaska. To jednostavno znači da postoji mjerljiva vjerojatnost da pojedinačne vrijednosti iz uzorka dobro predstavljaju parametre populacije.
Uzmimo jedan primjer kako bi bolje razumjeli koncept. Uzeli smo dvije skupine ispitanika – ispitivana skupina je primila liječenje i prepisana im je modificirana prehrana, a kontrolna skupina je primila placebo i bila na regularnoj prehrani. Kod obje je skupine izmjerena i zabilježena tjelesna temperatura i težina. Rezultati pokusa prikazani su u tablici 1.
Ako pogledamo rezultate, mogli bismo temeljem algebarskog rezoniranja zaključiti da postoji veća razlika između srednjih vrijednosti za težinu nego između srednjih vrijednosti za tjelesnu temperaturu. No, kada primijenimo odgovarajući statistički test za usporedbu između srednjih vrijednosti (u ovom je slučaju odgovarajući test Studentov t-test za neparne (nezavisne) podatke) rezultat će biti iznenađujući. Jedina statistički značajna razlika jest ona između srednjih vrijednosti tjelesne temperature, što je sasvim oprečno našim očekivanjima temeljenim na općem iskustvu i znanju.
Postaje jasno da su nam statistički testovi (za ispitivanje statističke značajnosti) potrebni kako bismo mogli donijeti zaključak da je nešto postiglo ili nije postiglo „statistički značajnu razliku“. Niti statističke niti znanstvene odluke ne smiju se pouzdano temeljiti samo na „onome što ljudsko oko vidi“ ili na promatračevom „prethodno stečenom iskustvu“!
Mora se primijetiti da ispitivač ne može biti 100% siguran o promatranoj razlici, čak i kada je ona statistički značajna. Kako bi se promatrač mogao suočiti s nesigurnošću, u takvim se situacijama uvode dva komplementarna ključna koncepta inferencijske statistike: pouzdanost (npr. kao interval pouzdanosti) i razina značajnosti (engl. significance level, α ili alpha) (5).
Pojednostavljeno, razina značajnosti može se definirati kao vjerojatnost odluke o odbijanju nulte hipoteze kada je nulta hipoteza zapravo istinita (odluka poznata kao pogreška tipa I ili lažno pozitivna odluka. Najćešće korištene razine značajnosti su 5%, 1% i 0,1%, što empirijski odgovara razini pouzdanosti od 95%, 99% i 99,9%.
 
Tablica 1. Rezultati pokusa
 
Kako bismo bolje razumjeli pojmove pouzdanosti i razine značajnosti, pogledajmo jedan općeniti primjer. Ako je procjenjena vrijednost nekog parametra P, s intervalom pouzdanosti [x, y] na razini pouzdanosti C, tada će svaka vrijednost izvan intervala [x, y] biti statistički značajno različita od P za razinu značajnosti α = 1 − C, pod istim pretpostavkama raspodjele koje su se koristile pri izradi intervala pouzdanosti.
To znači, da ako u procjeni drugog parametra promatrana vrijednost bude manja od x ili veća od y možemo odbaciti nultu hipotezu. U tom slučaju nulta hipoteza glasi: „istinita vrijednost ovog parametra iznosi P“, na razini značajnosti α; i obrnuto, ako procijenjena vrijednost drugog parametra leži unutar intervala [x, y], nećemo moći odbaciti nultu hipotezu koja kaže da je parametar jednak P.
Pitanje 3: Koje korake treba poduzeti za primjenu statističkog testa?
Odgovor 3:
1. Treba ispitati odgovarajuću nultu i alternativnu hipotezu.
2. Treba odabrati razinu značajnosti (označava se grčkim simbolom α (alfa). Često rabljene razine značajnosti su 5%, 1% i 0,1% što odgovara vrijednosti α (alfe) od 0,05, 0,01 i 0,001.
3. Izračunati odgovarajuću pojedinačnu vrijednost (S) prema ispravnoj matematičkoj jednadžbi testa.
4. Usporediti pojedinačnu vrijednost (S) s odgovarajućim kritičnim vrijednostima (engl. criticalvalue, CV) (dobivenimizstatističkihtablicaustandardnimslučajevima). UovomsekorakumožeizračunatiPvrijednost.
5. Odlučiti je li nulta hipoteza dokazana pa time i prihvaćena, ili je odbačena, a prihvaćena alternativna hipoteza. Pravilo u donošenju odluke jest da se nulta hipoteza odbaci ukoliko je S > CV i obrnuto. U praksi to znači da ćemo, ako je P ≤ α, odbaciti nultu hipotezu; u ostalim ćemo je slučajevima prihvatiti (4).
Ako analizu načinimo suvremenim statističkim programima, računalo sâmo transparentno provodi korake 3 i 4, tako da odmah možemo dobiti P vrijednost te možemo izostaviti korak konzultiranja velikih statističkih tablica. Većina statističkih programa nudi izračunate rezultate pojedinih vrijednosti iz testa.
Konačno, primijenimo li neki statistički test kako bismo testirali naše podatke iz nekog pokusa, dobiti ćemo P vrijednost, koja definira vjerojatnost da ćemo dobiti takvu ili veću razliku pod uvjetom da je nulta hipoteza točna (6).
Ako se vratimo na naš primjer, prikazan u tablici 1., P vrijednost će nam dati odgovor na to pitanje (7). Ako su srednje vrijednosti populacija iz kojih potiču ta dva uzorka zaista iste, koja je vjerojatnost da ćemo ipak zaključiti da postoji tako velika (ili veća) razlika između srednjih vrijednosti s tom veličinom uzorka?
Stoga, ako P vrijednost iznosi 0,04, to znači da postoji vjerojatnost od 4% da ćemo uočiti razliku koja je zaista tako velika u slučaju kad su srednje vrijednosti dviju populacija zapravo identične (nulta hipoteza je istinita). U ovom će nas slučaju gotovo mamiti zaključak da stoga, postoji vjerojatnost od 96% da ta promatrana razlika zapravo odražava istinitu razliku između populacija, a vjerojatnost da je to rezultat slučaja iznosi 4%. To je pogrešan zaključak. Ono što možemo reći je da bismo slučajnim uzorkovanjem iz identične populacije ustanovili razliku koja bi bila ista ili manja u 96% slučajeva, dok bismo veću razliku od opažene ustanovili samo u 4% slučajeva.
Odabir ispravnog statističkog testa.
Što trebamo znati prije početka statističke analize?
Pitanje 4: Koje tipove podataka možemo dobiti tijekom ispitivanja?
Odgovor 4: Osnovni podaci dobiveni ispitivanjem mogu biti kvantitativni (numerički) ili kvalitativni (kategorički) podaci, obje skupine imaju nekoliko podtipova (4).
Kvantitativni (numerički) podaci mogu biti:
1. Diskretni (diskontinuirani) numerički podaci, samo u slučaju ako postoji konačan broj mogućih vrijednosti ili ako postoji prostor na brojevnom pravcu između svake dvije moguće vrijednosti (npr. iščitavanje vrijednosti sa zastarjelog živinog termometra).
2. Kontinuirani podaci čine ostatak numeričkih podataka koji se ne mogu smatrati diskretnima. To su tipovi podataka koji se obično povezuju s nekom vrstom naprednog mjerenja na instrumentima prema razvojnom stupnju struke.
Ono što je važnije jest da se podaci mogu mjeriti intervalnom ljestvicom ili onom omjernom. Za samu statističku analizu razlika između te dvije ljestvice mjerenja nije važna.
1. Intervalna mjern aljestvica - podaci izraženi ovom mjernom ljestvicom nemaju apsolutnu nulu i ne možemo reći da je dvostruko veća brojčana vrijednost za ista dva puta veća. Primjerice, iako vrijednosti temperature izmjerene na Celzijusovoj ljestvici imaju jednake intervale između stupnjeva, 0°C nije apsolutna nula.  Nula na Celzijusovoj ljestvici označava točku ledišta vode, no ne i totalnu odsutnost temperature. Nema smisla reći da je temperatura od 10°C dvostruko toplija 5°C.
2. Omjerna mjerna ljestvica - podaci izraženi omjernom mjernom ljestvicom imaju apsolutnu nulu. Na primjer, prilikom mjerenja duljine, nula predstavlja odsutnost duljine, a 10 metara je dvostruko dulje od 5 metara.
Oba tipa podataka (i intervalni i omjerni) mogu se koristiti u parametrijskim testovima.
Kvalitativni (kategorički) podaci mogu biti:
1. Binarni (logički) podaci – osnovni tip kategoričkih podataka (npr. pozitivno/negativno; prisutno/odsutno itd.).
2. Nominalni podaci - kod kompleksnijih kategoričkih podata, prvu (i najslabiju) razinu podataka predstavljaju nominalni podaci. Podaci nominalne razine dobiju se iz vrijednosti koje se razlikuju samo po nazivu. Ne postoji neka standardna shema poretka (npr. rumunjska, mađarska, hrvatska skupina ljudi itd.).
3. Ordinalni (uredbeni) podaci - slični su nominalnim podacima u tome da se podaci razlikuju prema nazivu, a od nominalnih podataka ih razlikuje shema stupnjevanja (npr. povremeni pušači, umjereni i teški pušači).
Pitanje 5: Kako se ti tipovi podataka mogu organizirati prije početka statističke analize?
Odgovor 5: Sirovi ili primarni podaci su još neobrađeni podaci sakupljeni na licu mjesta (4).
Primarni se podaci sakupljaju tijekom znanstvenog istraživanja te ih je potrebno prebaciti u format koji dozvoljava interpretaciju i analizu između varijabli.
Obično se podaci iz pokusa sakupljaju pomoću sistema za upravljanje bazama podataka (Microsoft Access, Oracle, MySQL ili čak namjenskih elektroničkih sistema pohrane zdravstvenih podataka ili tabličnih programa (kao što su Microsoft Excel ili OpenOffice Calc). U oba se slučaja podaci za istraživanje moraju prebaciti u program koji omogućuje rad s podacima kako bi se pripremili za statističku analizu. Moraju biti organizirani u tabličnom obliku s odgovarajućim brojem redova i stupaca, u formatu koji rabi većina statističkih programskih paketa.
Numerički se podaci mogu organizirati na dva načina, ovisno o zahtjevima statističkog programa koji se koristi:
1. Indeksirani podaci – imat ćemo barem dva stupca: jedan će stupac sadržavati brojeve zabilježene tijekom pokusa, a drugi će sadržavati grupirajuću varijablu. Na taj način, korištenjem samo dvaju stupaca tablice možemo zabilježiti podatke za velik broj uzoraka. Takav se pristup koristi u jakim i opsežnim statističkim programima kao što su SPSS (koji je razvio SPSS Inc., danas odjel u sklopu IBM), pa čak i besplatnim programima kao što su Epiinfo (koji je razvio Centar za kontrolu bolesti (Center for Disease Control), http://www.cdc.gov/epiinfo/downloads.htm) ili OpenStat (koji je razvio Bill Miller, http://statpages.org/miller/openstat/).
2. Sirovi podaci – podaci se organiziraju u specifičan stupac (ili red) za sve uzorke koje možemo imati. Iako ovaj pristup sa staništa početnika možda izgleda prirodniji i logičniji, relativno mali broj statističkih programa ga rabi (npr. MS Excel Statistics Add-in, OpenOffice Statistics ili Graphpad Instat and Prism, koje je razvio Graphpad Software Inc.).
Ako su naši zabilježeni podaci kvalitativni (kategorički), tablica primarnih podataka treba se sažeti u takozvanu tablicu kontingencije ili sadržajnosti. Tablica sadržajnosti je u svojoj osnovi format prikaza koji se primjenjuje za analizu i bilježenje povezanosti između dvije ili više kategorijskih varijabli. Uglavnom postoje dva tipa tablica sadržajnosti „2 x 2” (tablice s 2 reda i 2 stupca) i „N x N” (gdje je N > 2).
Pitanje 6: Koliko možemo imati uzoraka?
Odgovor 6: Ovisno o ustroju istraživanja postoje tri situacije (4,7):
jedan uzorak;
dva uzorka;
tri ili više uzoraka.
U slučaju jednog uzorka postavlja se važno pitanje: kakav se statistički zaključak može donijeti, budući da je očigledno kako nisu ispunjeni uvjeti za usporedbu?
Iako izgleda kao da nema smisla, ipak se može napraviti barem nekakva statistička analiza. Primjerice, ako damo pirogeni lijek uzorku laboratorijskih životinja, moći ćemo napraviti usporedbe između srednje vrijednosti tjelesne temperature zabilježene tijekom pokusa i dobro poznate standardne vrijednosti za tu vrstu životinje, kako bismo pokazali je li razlika između tih vrijednosti statistički značajna i kako bi zaključili ima li lijek pirogeni učinak.
Ako u istraživanju imamo dva uzorka (što je najčešća situacija), sve što nam je činiti jest pratiti ispravni postupak inferencijske statistike kako bismo napravili ispravnu usporedbu između uzoraka.
Kod više od dva uzorka, statistička će se analiza činiti nešto kompliciranijom, no postoje statistički testovi s kojima se itekako mogu obraditi ovakvi podaci. Primjerice, možemo raditi usporedbe srednjih vrijednosti za sve uzorke u jednom trenutku koristeći analizu varijance (ANOVA test).
Također moramo imati na umu da postoje neki post hoc testovi koji se primjenjuju u drugom stupnju analize varijance u slučaju da je nulta hipoteza odbačena. Ti testovi mogu napraviti usporedbu između svakog para uzoraka iz pokusa.
Pitanje 7: Da li su uzorci zavisni (parni) ili nezavisni (neparni)?
Odgovor 7: Općenito, kad god je ispitanik u jednoj skupini povezan s ispitanikom u drugoj skupini, govorimo o parnim uzorcima.
Primjerice, u istraživanju majki i kćeri, uzorci su upareni, majka sa svojom kćerkom. Ispitanici u dva uzorka nisu nezavisni jedni od drugih. Za nezavisne uzorke je vjerojatnost da član populacije bude odabran kao uzorak potpuno neovisna o bilo kojem drugom odabranom članu, bilo da se radi o skupini tog člana ili nekoj drugoj skupini u istraživanju (7).
Parni se podaci mogu definirati kao vrijednosti koje se obično mjere u parovima i stoga se može očekivati da one više variraju između parova, nego između ispitanika unutar para. Ukoliko nisu postignuti ti uvjeti, u tom slučaju govorimo o neuparenim ili nezavisnim uzorcima.
Zašto je to važno? Postoje mnogi statistički testovi koji imaju različite verzije ukoliko se radi o parnim, odnosno neparnim uzorcima te imaju različit matematički pristup koji može dovesti do različitih rezultata. Primjerice, dobro poznati statistički test t-test koji se primjenjuje za usporedbu srednje vrijednosti između dva uzorka, ima različite verzije za parne/neparne uzorke: t-test za parne (zavisne) uzorke i t-test za neparne uzorke.
Stoga je odabir t-testa za parne uzorke (zavisne) umjesto onog za neparne (nezavisne) pogreška koja može dovesti do krivih rezultata/zaključaka u procesu statističkog zaključivanja iz premise.
Test za parne uzorke moramo odabrati u slučaju kada pokus slijedi jedan od ovih ustroja (7):
kada mjerimo varijable prije i poslije intervencije kod svakog ispitanika;
kada odabiremo ispitanike kao parove, uparene prema varijablama kao što su npr. dob, etnička skupina ili stupanj ozbiljnosti bolesti; jedan od parova bude liječen na jedan način; a drugi par na alternativni način;
izvodimo laboratorijski pokus nekoliko puta, svaki puta s kontrolnim i ispitivanim uzorkom u duplikatu;
mjerimo varijablu ishoda kod parova dijete/roditelj (ili bilo kojem sličnom paru).
Općenito govoreći, kad god očekujemo da će nam vrijednost u jednom uzorku biti bliža određenoj vrijednosti u drugom uzorku, nego što bi bila kod slučajno odabrane vrijednosti u drugom uzorku, moramo odabrati test za uparene podatke. U drugom slučaju odabiremo test za nezavisne uzorke.
Pitanje 8: Slijede li uzorkovani podaci normalnu/Gaussovu raspodjelu?
Odgovor 8: Ovisno o vrsti raspodjele, odabiremo parametrijske, odnosno neparametrijske testove.
Trebamo imati na umu da mnogi statistički testovi (npr. t-test, ANOVA i njene varijante) a priori pretpostavljaju da podaci uzorkovani iz populacije slijede Gaussovu (normalnu/zvonoliku) raspodjelu. Testovi koji slijede tu pretpostavku nazivaju se parametrijskim testovima, a njima se bavi parametrijska statistika (4).
Parametrijska statistika pretpostavlja da podaci slijede jedan tip raspodjele vjerojatnosti (npr. normalnu raspodjelu) i donosi zaključke o parametrima raspodjele. Međutim, kod mnogih populacija, kao i kod bioloških podataka, podaci ne slijede precizno Gaussovu raspodjelu. Gaussova se raspodjela širi u beskonačnost u oba smjera te tako uključuje i beskonačno negativne kao i beskonačno pozitivne brojeve, a biološki podaci su često po svojoj prirodi ograničeni u stupnjevanju. No, mnogi biološki podaci ipak slijede zvonoliku raspodjelu koja sliči Gaussovoj raspodjeli.
Stoga će ANOVA testovi, t-testovi i ostali statistički testovi ispravno ispitivati čak i u slučaju da je raspodjela samo približna Gaussovoj (posebno kod velikih uzoraka, npr. > 100 ispitanika) i ti se testovi rutinski primjenjuju na mnogim poljima znanstvenog istraživanja.
No u nekim situacijama, primjerice kada imamo mali uzorak (npr. < 10 ispitanika) ili kada kao varijablu rezultata imamo medicinski rezultat (npr. Apgar rezultat), primjena takvog testa, koji pretpostavlja da populacija slijedi normalnu raspodjelu, bez odgovarajućeg znanja o tom fenomenu, mogla bi rezultirati P vrijednošću koja bi navodila na pogrešan zaključak.
Iz tog razloga, druga grana statistike, neparametrijska statistika, nudi metode i testove nezavisne o raspodjeli podataka, koji se ne oslanjaju na pretpostavku da su podaci uzeti iz dâte raspodjele vjerojatnosti (u našem slučaju je to normalna raspodjela). Takvi se testovi nazivaju neparametrijski statistički testovi (4). Trebamo zapamtiti da gotovo svaki parametrijski statistički test ima odgovarajuću neparametrijsku inačicu.
Jedna od vjerojatno najtežih odluka tijekom statističkog protokola je koji test odabrati: parametrijski ili neparametrijski. Pitanje koje si možemo postaviti je: ako se neparametrijski testovi ne oslanjaju na pretpostavku da podaci koje obrađuju slijede normalnu raspodjelu, zašto ne primijeniti samo one tipove testova s kojima bi izbjegli pogrešku?
Kako bi razumjeli razliku između tih dvaju tipa testova moramo razumjeti daljnja dva osnovna statistička koncepta: robusnost (engl. robustness) i snaga statističkog testa (engl. power).
Robusni test se može upotrijebiti čak i kada neke od pretpostavki za izvođenje testa nisu zadovoljene. Neparametrijski testovi su robusniji od svojih parametrijskih inačica, primjerice mogu obraditi vrlo male uzorke, gdje su podaci daleko od normalne raspodjele.
Snaga statističkog testa je vjerojatnost da će taj test odbaciti nultu hipotezu, ako je alternativna hipoteza istinita (npr. da se neće napraviti pogreška tipa II). Kao što je autorica Ilakovac (6) prethodno detaljno opisala, pogreška tipa II je također poznata pod nazivom pogreška druge vrste, β pogreška ili lažno negativna, a definira se kao pogreška neisključivanja nulte hipoteze u slučaju kada je ona zaista neistinita. S pojačanjem snage statističkog testa, opada vjerojatnost pogreške tipa II. Neparametrijski testovi su često robusniji, no obično imaju manju snagu testa. Drugim riječima, kod velikih uzorka može biti potrebno da se donose zaključci s istim stupnjem pouzdanosti (7).
Pitanje 9: Kada možemo primijeniti odgovarajući neparametrijski test?
Odgovor 9: Neparametrijski test trebamo zasigurno primijeniti u situacijama kao što su ove (7):
Ako je varijabla ishoda ordinalan podatak ili rezultat s manje od dvanaestak kategorija (npr. Apgar rezultat). Jasno je da u tim slučajevima uzorak iz populacije ne može slijediti Gaussovu raspodjelu.
Ako je uzorak premalen (< 10);
Ako je nekoliko vrijednosti van ljestvice, previsoke ili preniske da bi se mjerile specijalnom mjernom tehnikom. Iako uzorak iz populacije slijedi normalnu raspodjelu, njegove podatke nije moguće analizirati parametrijskim testom (npr. t-testom ili ANOVA testom). Neparametrijski test se kod ove vrste podataka jednostavno može primjeniti, jer se neće oslanjati na pretpostavke da podaci slijede normalnu raspodjelu. Neparametrijski testovi bilježe izvorne podatke kao ordinalne podake. Izuzetno niskim i izuzetno visokim vrijednostima dodijele se vrijednosti stupnja i na taj se način neće narušiti analiza, kao što bi to bio slučaj kod primjene izvornih podataka s ekstremnim vrijednostima. U tom slučaju neće biti važno da neke vrijednosti nisu bile precizno izmjerene.
Ako imamo dovoljno statističke pouzdanosti da je populacija daleko od one čiji podaci slijede normalnu raspodjelu. Mnoštvo testova koji ispituju normalnost raspodjele može ispitati prate li podaci iz uzorka normalnu raspodjelu.
Testovi za ispitivanje normalnosti raspodjele primjenjuju se za određivanje jesu li skupovi podataka dobro organizirani normalnom raspodjelom. Drugim riječima, kod ispitivanja statističke hipoteze, ti će testovi ispitati podatke prema nultoj hipotezi da se vidi slijede li oni normalnu raspodjelu.
Najčešći primjeri takvih testova su:
1. DAgostino-Pearsonov test normalnosti raspodjele – koji izračunava iskošenost (engl. skewness) i spljoštenost (engl. kurtosis), kako bi izrazio koliko su podaci udaljeni od normalne raspodjele po pitanju asimetrije i oblika. Nadalje, on izračunava koliko se svaka od tih vrijednosti razlikuje od vrijednosti koja je očekivana u slučaju normalne raspodjele, te računa P vrijednost iz zbroja tih odstupanja. Taj je test normalnosti raspodjele višestruko upotrebljiv te ima veliku snagu (u usporedbi s nekim drugim testovima) pa ga stoga preporučuju neke suvremene statističke knjige.
2. Kolmogorov-Smirnovljev test normalnosti raspodjele, koji se prije često upotrebljavao, uspoređuje kumulativnu raspodjelu podataka s očekivanom kumulativnom normalnom raspodjelom, a P vrijednost mu se temelji na najvećoj vrijednosti odstupanja, što baš i nije najosjetljiviji način da se procjeni normalnost raspodjele, stoga se smatra staromodnim.
3. pored ova dva testa postoji zaista velik broj ostalih testova koji ispituju normalnost raspodjele, kao što su: Jarque-Beratest, Anderson-Darlingovtest, Cramér-von-Misesovt est, Lillieforsov test normalnosti (adaptacija Kolmogorov-Smirnovljevog testa), Shapiro-Wilkinsonov test, ShapiroFrancia test normalnosti itd.).
Primjena testova za ispitivanje normalnosti raspodjele čini se jednostavnim načinom odlučivanja trebamo li se odlučiti za parametrijski ili neparametrijski test. No ona to nije, budući da trebamo paziti na veličinu uzor(a)ka prije no što primijenimo te testove. Za male uzorke (npr. < 15), testovi normalnosti baš i nisu korisni. Oni imaju malu snagu razlikovanja između populacije čiji podaci slijede Gaussovu raspodjelu i one čiji podaci ne slijede normalnu raspodjelu. Mali uzorci jednostavno ne sadržavaju dovoljno informacija da nam omoguće donošenje zaključka o obliku raspodjele za cijelu populaciju. Donja tablica sažima testove o kojima smo pisali na neposredan način (Tablica 2.).
Ako podaci ne slijede Gaussovu (normalnu) raspodjelu, možda ćemo moći pretvoriti vrijednosti kako bi tvorili Gaussovu raspodjelu (4). U ovom članku nećemo opisivati kako se to radi, no kao dobar primjer za mjerenja (numeričkih podataka) možemo spomenuti jednostavan način na koji se to može napraviti, a to je logaritamska pretvorba: nova vrijednosti = log (stara vrijednost).
U nekim slučajevima takav jednostavan pristup može nam omogućiti primjenu parametrijskog statističkog testa umjesto neparametrijskog.
 
Tablica 2. Parametrijski nasuprot neparametrijskim testovima
 
 
Pitanje 10: Hoćemo li primijeniti jednosmjeran (engl. one-tailed test) ili dvosmjeran (engl. two-tailed test)?
Odgovor 10: Zamislimo da imamo neka istraživanja/pokuse usporedbe visine kod mlađih muškaraca (18-35 godina) između raznih zemalja svijeta (npr. između Švedske i Južne Koreje i između Rumunjske i Bugarske). Tijekom statističke analize oblikovati ćemo nultu hipotezu H0 (da ne postoji razlika između srednje vrijednosti visine između ta dva nezavisna uzorka) i alternativnu hipotezu H1 za određeni statistički test. Recimo da podaci slijede Gaussovu raspodjelu i da je cilj provesti specifični test kako bi odredili treba li odbaciti nultu, a prihvatiti alternativnu hipotezu (u tom slučaju se primjenjuje t-test za neuparene/nezavisne uzorke).
No, postoje dvije različite vrste testova koji se mogu primijeniti (4,7).
Jednosmjerni test traži samo povećanje ili smanjenje (promjenu u jednom smjeru) kod parametra, dok dvosmjerni test traži bilo kakvu promjenu kod parametara (koja može biti bilo kakve vrste – povećanje ili smanjenje).
Kako bismo razumjeli taj koncept, trebamo definirati kritično područje na rubu raspodjele kod testa za ispitivanje hipoteze: skup svih ishoda koji će nas, ako se dogode, dovesti do odluke o odbacivanju nulte hipoteze i prihvaćanju alternativne hipoteze.
U jednosmjernom testu, postojat će samo jedno kritično će područje na rubu raspodjele (sivo polje na slici 3.). Ako vrijednost iz našeg uzorka leži u tom području, odbacit ćemo nultu hipotezu, a prihvatiti alternativnu. U dvosmjernom testu tražimo ili povećanje ili smanjenje, što znači da u tom slučaju postoje dva kritična područja na rubu raspodjele, kao što je vidljivo na slici 3.
 
Slika 3. Kritična područja na rubu raspodjele kod jednosmjernih i dvosmjernih testova
 
Kada uspoređujemo dvije skupine, moramo razlikovati između P vrijednosti dobivene jednosmjernim i dvosmjernim testom. P vrijednost dvosmjernog testa daje odgovor na pitanje: Pod pretpostavkom da je nulta hipoteza istinita, koja je vjerojatnost da će slučajno odabrani uzorci imati srednje vrijednosti toliko razdvojene (ili još više) kao što vidimo u ovom pokusu s bilo kojom skupinom koja ima veću srednju vrijednost?
Kako bi mogli interpretirati P vrijednost jednosmjernog testa, moramo prije početka sakupljanja podataka predvidjeti koja će skupina imati veću srednju vrijednost. P vrijednost jednosmjernog testa odgovara na pitanje: Pod pretpostavkom da je nulta hipoteza istinita, koja je vjerojatnost da ćemo kod slučajno odabranih uzoraka opaziti srednje vrijednosti toliko razdvojene (ili još više) kao što vidimo u ovom pokusu s određenom skupinom koja ima veću srednju vrijednost?
P vrijednost jednosmjernog testa prikladna je samo u slučaju kada nam prethodni podaci, fizička ograničenja i zdrav razum ukazuju da je razlika, ako ona uopće postoji, može biti samo u jednom smjeru. S druge strane, može nas zanimati samo rezultat u jednom smjeru. Primjerice, u slučaju da je razvijen novi lijek koji liječi stanje za koje postoji stari lijek, jasno je da će istraživači biti zainteresirani za nastavak istraživanja na novom lijeku, samo u slučaju ako djeluje bolje od starog lijeka. Nulta hipoteza će se prihvatiti ako novi lijek djeluje isto ili gore nego stari lijek.
Dakle, suštinsko je pitanje ovdje poznajemo li u dovoljnoj mjeri ustroj istraživanja, kako bismo znali može li se razlika dogoditi isključivo u jednom smjeru ili nas zanima razlika između skupina u oba smjera.
Prema tome, za jednosmjerni se test možemo odlučiti jedino u slučaju kada uspoređujemo srednje vrijednosti visina odraslih muškaraca između Švedske i Južne Koreje, jer nam zdrav razum i iskustvo govori da razlika, ako će je uopće biti, može biti samo u jednom smjeru (muškarci Šveđani bi trebali biti viši od muškaraca iz Južne Koreje).
Kada tu istu analizu napravimo za Rumunje i Bugare, takva pretpostavka možda neće biti istinita, što znači da ćemo odabrati dvosmjerni test.
Za izračun P vrijednosti jednosmjernim testom trebamo se odlučiti samo ako su dvije stvari istinite:
prije nego što sakupimo podatke moramo moći predvidjeti koja će skupina imati veću srednju vrijednost;
ako se dogodi da druga skupina ima veću srednju vrijednost – čak i ako je samo malo veća – tada moramo tu razliku pripisati slučaju.
Iz svih se tih razloga preporuča, posebno početnicima, da prije posegnu za ispravnim dvosmjernim testom umjesto jednosmjernog, osim ako imaju dobar razlog za odabir P vrijednosti jednosmjernog testa.
Pitanje 11: Što je cilj naše statističke analize?
Odgovor 11: Kod osnovne statističke analize možemo imati najviše tri glavna cilja (4,7):
1. Usporeditisrednjevrijednosti (ilimedijane) jedne, dvijeilivišeskupine/uzoraka (npr. jelikrvnitlakvišikodkontrolneskupineililiječeneskupine/liječenihskupina?).
2. Napravitikorelaciju, daseustanovikakosejednailivišenezavisnihvarijabliijednazavisnavarijablaodnosemeđusobno (npr. kakotežinai/ilidobutječunakrvnitlak).
3. Izmjeriti povezanost između jedne ili više nezavisnih varijabli (npr. epidemiološki čimbenici rizika) i jedne i više zavisnih varijabli (npr. bolesti). To je takozvana analiza tablica kontingencije ili sadržajnosti, gdje možemo promatrati kako su nezavisna varijabla/nezavisne varijable (npr. dim cigarete ili teški oblik pušenja) povezani s jednom ili više zavisnih varijabli (npr. rak pluća i njegovi razni oblici).
Iako postoje tri cilja, u ovom ćemo članku obraditi samo prvi cilj: usporedbu srednjih vrijednosti između jedne, dvije ili više skupina/uzoraka. Ovisno o tome koliko uzoraka imamo, naš će cilj biti dati znanstveni odgovor na sljedeća pitanja:
Za jednu skupinu/jedan uzorak: izmjerili smo varijablu u tom uzorku i srednja vrijednost je drugačija od hipotetske (normalne) vrijednosti. Je li to poslijedica slučaja? Ili nam to govori da je promatrana razlika statistički značajna?
Za dvije skupine/dva uzorka: izmjerili smo varijablu u dvije skupine i srednje vrijednosti (i/ili medijani) izgledaju kao da su različite. Je li to rezultat slučaja? Ili nam to govori da između skupina zaista postoji razlika?
Za tri ili više skupina/uzoraka: izmjerili smo varijablu u tri ili više skupina i srednje vrijednosti (i/ili medijani) su različite. Je li to rezultat slučaja? Ili nam to govori da između skupina zaista postoji razlika? Između kojih skupina postoje razlike?
Kako bi se dao znanstveni odgovor na ova pitanja moramo usporediti srednje vrijednosti (medijane) onih skupina/uzoraka primjenom jednog od sljedećih statističkih testova (preporučujemo primjenu dvosmjernog testa, osim ako nemamo dobar razlog za odabir jednosmjernog testa) (Tablica 3.).
Poznavajući osnovne statističke pojmove i koncepte, postupak odabira statističkog testa iz gornje tablice vrlo je shvatljiv, ukoliko slijedimo algoritamski način te ispravno pratimo postupnik za izbor testa, kao što je ovaj prikazan na slici 4., kako bismo izbjegli pogreške tijekom postupka.
 
Tablica 3. Statistički testovi kojima se uspoređuju srednje vrijednosti (medijani) za jednu, dvije, tri ili više skupina/uzoraka
 
 
Slika 4. Proces odabira ispravnog statističkog testa
 
Zaključak
 
Postupak odabira ispravnog statističkog testa može biti problematičan zadatak, no dobro poznavanje i razumijevanje odgovarajućih statističkih pojmova i koncepata može pomoći u donošenju ispravne odluke.
Posebno je potrebno znati s kojim tipom podataka raspolažemo, kako su ti podaci organizirani, koliko skupina/uzoraka imamo i jesu li podaci parni (zavisni) ili neparni (nezavisni); moramo si postaviti pitanje slijede li podaci iz populacije Gaussovu raspodjelu ili ne, te ukoliko postoje uvjeti za to, hoćemo li odabrati jednosmjerni test (nasuprot dvosmjernom testu koji je obično preporučen izbor).
Temeljem takvih informacija možemo slijediti statistički postupnik za izbor ispravnog testa prema algoritamskom načelu, koji bi nas trebao moći dovesti do ispravnog testa bez pogrešaka tijekom postupka odabira.
Čak i ako u ovom članku nismo govorili o usporedbi srednjih vrijednosti kada su uključena dva ili više čimbenika (npr. bifaktorijalna ANOVA) ili ostala dva glavna cilja statističkog zaključivanja (analiza tablica kontingencije ili sadržajnosti i korelacijska/regresijska analiza), algoritamskim bi principom i u takvim slučajevima morali moći odabrati ispravni statistički test.
Za neki drugi članak ostavit ćemo neke vrlo osporavane koncepte kao što su izrazito visoke ili izrazito niske vrijednosti i njihov utjecaj u statističkoj analizi, utjecaj vrijednosti koje nedostaju itd.
 
Literatura
 
 1. Cox DR. Principles of statistical inference. Cambridge University Press, 2006.
 2. McHugh ML. Standard error: meaning and interpretation. Biochem Med 2008;18:7-13.
 3. Slavkovic A. Analysis of Discrete Data. Available at: http://www.stat.psu.edu/online/courses/stat504/01_overview/index.html. Accessed: October 24, 2009.
 4. Marusteri M. ŠNotiuni fundamentale de biostatistica:note de cursĆ/Fundamentals in biostatistics:lecture notes. University Press Targu Mures, 2006. (in Romanian)
 5. Simundic AM. Confidence interval. Biochem Med 2008;18:154-61.
 6. Ilakovac V. Statistical hypothesis testing and some pitfalls. Biochem Med 2009;19:10-6.
 7. Motulsky HJ. GraphPad Prism - Statistics Guide. GraphPad Software Inc., San Diego California USA, 2007, Available at: www.graphpad.com. Accessed: October 24, 2009.