Contact

Daria Pašalić
Editor-in-Chief
Department of Medical Chemistry, Biochemistry and Clinical Chemistry
Zagreb University School of Medicine
Šalata ul 2.
10 000 Zagreb, Croatia
Phone +385 (1) 4590 205; +385 (1) 4566 940
E-mail: dariapasalic [at] gmail [dot] com

Useful links

Odabrane teme iz biostatistike

 

Vesna Ilakovac. Testiranje statističkih hipoteza i neke zamke. Biochemia Medica 2009;19(1):10-6.
 
Katedra za biofiziku, medicinsku statistiku i medicinsku informatiku, Medicinski fakultet Sveučilišta J.J. Strossmayer, Osijek
Corresponding author: vilakov [at] mefos [dot] hr
 
Sažetak
 
Analiza podataka za potrebe istraživanja obično teži rabljenju informacija dobivenih iz uzorka ispitanika, kako bi se moglo zaključiti o relevantnoj populaciji. Testiranje statističkih hipoteza je široko rasprostranjena metoda statističkog zaključivanja. Za čitatelja znanstvenih i stručnih časopisa, kao i za istraživača, bitno je da razumije opće koncepte postupka testiranja, kako bi donio ispravnu odluku i stvorio mišljenje o predočenim rezultatima.
Ovaj nam članak daje pregled osnovnih koraka općeg postupka testiranja statističkih hipoteza i ističe neke poznate zamke i zablude. Članak obrađuje i pitanja koja se posebno odnose na Pvrijednost, određivanje razine značajnosti, dokazivanje nulte hipoteze i problem višestrukog testiranja.
Ključne riječi: testiranje statističke hipoteze; P vrijednost; razina statističke značajnosti; problem višestrukog testiranja hipoteze
 
Pristiglo: 21. studenog 2008.                                                                                                 Prihvaćeno: 15. prosinca 2008.
 
Uvod
 
Analiza podataka za potrebe istraživanja teži obično k upotrebi informacija dobivenih iz uzorka ispitanika, kako bi se moglo zaključiti o relevantnoj populaciji. Testiranje statističkih hipoteza je široko rasprostranjena metoda statističkog zaključivanja. Na primjer, ako nas zanima ima li razlike između muškaraca i žena po pitanju njihove koncentracije kolesterola u serumu, ili hoće li rast bakterija pratiti neku poznatu raspodjelu, ili hoće li naš koeficijent korelacije biti različit od 0, rabiti ćemo testiranje hipoteze. Računala i specijalizirani statistički programi, sa svojim opširnim uputama i objašnjenjima, prilično nam olakšavaju izvođenje statističkih testova. Statistički programi izračunavaju točnu P vrijednost i urednici časopisa danas zahtijevaju od autora da navedu tu dobivenu vrijednost te tako omoguće čitateljima vlastito u tumačenje (kao primjer, vidi Upute za autore na internetskoj stranici časopisa Biochemia Medica).
S druge strane, tumačenje rezultata testa nije puko navođenje „statističke značajnosti” kada je P vrijednost niža od 0,05 ili bilo koje druge proizvoljne granične vrijednosti. Stoga je jednako važno kako za istraživača, tako i za čitatelja znanstvenih i stručnih časopisa razumjeti postupak testiranja statističkih hipoteza i kako ga koristiti kada želimo predstaviti ili procijeniti rezultate istraživanja u objavljenom članku. Postoji jedno, donekle zapostavljeno pitanje koje se tiče statističkih testova. Mnogi objavljeni radovi navode prilično velik broj P vrijednosti, što može otežati tumačenje (1). Svrha je ovog rada dati kratak pregled osnovnih koraka u općenitom postupku testiranja statističkih hipoteza i istaknuti neke uobičajene zamke i zablude.
Testiranje statističkih hipoteza
Testiranje statističkih hipoteza je postupak koji uključuje formuliranje statističke hipoteze i upotrebu podataka iz uzorka, kako bi se moglo odlučiti o ispravnosti formulirane statističke hipoteze. Iako detalji testiranja mogu varirati od testa do testa, za svako testiranje statističkih hipoteza možemo koristiti ovaj postupak u četiri koraka:
1. Postaviti nultu hipotezu i alternativne hipoteze.
2. Definirati postupak testiranja uključujući odabir razine statističke značajnosti i snage testa.
3. Izračunati test statistiku i pripadajuću P vrijednost.
4. Zaključiti jesu li podatci u skladu s nultom hipotezom, odnosno donijeti odluku o nultoj hipotezi.
Dvije se moguće pogreške mogu potkrasti u odlučivanju o nultoj hipotezi (2).
Pogreška tipa I događa se u slučaju kada „vidimo” učinak kojeg zapravo nema. Vjerojatnost da će se napraviti pogreška tipa I obično se naziva alfa (α) i njena se vrijednost određuje prije testiranja statističke hipoteze. Alfa je ono što nazivamo „razinom značajnosti” i njena je vrijednost najčešće postavljena na 0,05 ili 0,01. Kada je P vrijednost, dobivena u trećem koraku općih uputa o postupku testiranja statističke hipoteze niža od vrijednosti α, tada se rezultat naziva „statistički značajnim na razini α”.
Pogreška tipa II događa se kada ne „vidimo” razliku, a ona je zapravo prisutna. Vjerojatnost da će se napraviti pogreška tipa II naziva se beta (β) i njena vrijednost uvelike ovisi o veličini učinka koji nas zanima, veličini uzorka i odabranoj razini statističke značajnosti. Beta se povezuje sa snagom testa u otkrivanju učinka navedene veličine. Više o analizi snage testa može se pročitati u jednom prethodno objavljenom članku iz serije Odabrane teme iz biostatistike (3).
Što je Pvrijednost?
P vrijednost se često pogrešno interpretira kao vjerojatnost da je nulta hipoteza istinita. Nulta hipoteza nije nasumična te ona nema vjerojatnosti. Ona je ili istinita ili nije. Pravo značenje P vrijednosti jest, da je to vjerojatnost opažanja podataka kakvi su na promatranom uzorku (ili ekstremnijih podataka) kada je nulta hipoteza istinita. Na primjer, kada promatramo razliku u srednjim vrijednostima koncentracije kolesterola u serumu mjerenu u dva uzorka, želimo znati koliko je vjerojatno da ćemo dobiti takvu ili još ekstremniju razliku kad ne bi bilo stvarne razlike između ispitane populacije. To je ono što nam kazuje P vrijednost i ako je ona mala, recimo 0,003, smatramo da je opažena razlika malo vjerojatna u slučaju kada je nulta hipoteza istinita.
To nas dovodi do pitanja koliko malo je malo, odnosno do pitanja odabira razine statističke značajnosti.
Koju razinu statističke značajnosti odabrati?
Važno je naglasiti da je razina statističke značajnosti proizvoljna vrijednost koju odabiremo kao graničnu vrijednost u odlučivanju o nultoj hipotezi te da je treba odrediti prije analize. Čak i ako znamo točnu P vrijednost, potrebna nam je pomoć pri odlučivanju na temelju promatrane P vrijednosti.
Prihvatljivo i jednostavno rješenje je ustanoviti posljedice pogrešnih odluka, odnosno pogrešaka tipa I i II. Ako (pogrešno) uočavanje razlike koje zapravo nema može naštetiti populaciji koju ispitujemo (ili općenito, svoj populaciji), tada trebamo odabrati nižu razinu statističke značajnosti, odnosno pokušati smanjiti vjerojatnost pogreške tipa I.
Zamislite sljedeći scenarij: Prospektivno kliničko ispitivanje pokazalo je da bolesnici na liječenju A imaju jake štetne nuspojave. Liječenje A je otkazano i sada se ispituju učinci novog liječenja B. Primijećeno je smanjenje štetnih nuspojava kod novog liječenja B u odnosu na staro liječenje A.
Pitanje je: koju razinu statističke vjerojatnosti trebamo odabrati kako bi procijenili značajnost promatrane razlike, odnosno je li novo liječenje zaista bolje od starog?
Možemo donijeti dva pogrešna zaključka, od kojih svaki nosi posljedice za bolesnike.
Pogrešni zaključak 1: liječenje B je bolje, iako je zapravo jednako liječenju A.
Posljedica 1: prihvaćamo novo liječenje (liječenje B) i njemu izlažemo bolesnike, zajedno s štetnim nuspojavama koje će ono donijeti.
Pogrešni zaključak 2: oba su liječenja identična, iako je zapravo liječenje B bolje od liječenja A.
Posljedica 2: ne primjenjujemo novo liječenje u praksi, već nastavljamo tražiti bolje rješenje.
Dakle, prilično je jasno da pogreška tipa I (primjećivanje razlike koje zapravo nema) u ovom scenariju nanosi više štete bolesniku i da ju trebamo pokušati izbjeći.
Kod odabira razine statističke značajnosti α, moramo imati na umu da će, ako smanjimo vrijednost α, narasti vrijednost β, smanjujući istodobno snagu statističkog testa (3).
Možemo li „dokazati” nultu hipotezu?
Možda će Vas odgovor iznenaditi, no on jednostavno glasi: ne. Dobivanje neznačajnog rezultata o učinku nekog liječenja ne implicira da taj učinak ne postoji. Najviše što možemo reći, jest da nismo uspjeli naći dovoljno dokaza o njegovom postojanju. Da citiram naslov jednog članka u renomiranom britanskom medicinskom časopisu British Medical Journal: „Nepostojanje dokaza nije dokaz nepostojanja” (4). U odnosu na nultu hipotezu trebamo se izraziti da je „nismo odbacili” ili je „nismo uspjeli odbaciti” (5). Statistička hipoteza ne „dokazuje” ništa.
Višestruko testiranje hipoteza
Ako odaberemo 0,05 kao razinu statističke značajnosti i zatim napravimo 20 nezavisnih testova na istim podatcima, vjerojatnost pogreške tipa I, odnosno odbacivanja nulte hipoteze, iako je ona istinita, iznosi 0,64. To znači da je vjerojatnije da ćemo dobiti jedan statistički značajan rezultat nego niti jedan. Nadalje, među 20 takvih nezavisnih testova hipoteze, očekujemo da ćemo pukim slučajem dobiti 20 x 0,05 = 1 značajan rezultat. Kako je to moguće?
Vjerojatnost pogreške tipa I (razina statističke značajnosti) α može se opisati kao vjerojatnost odbacivanja nulte hipoteze kada je ona zapravo istinita. To možemo izraziti kao:
α = 1 - (1 - α).
U toj jednadžbi (1-α) predstavlja zapravo vjerojatnost suprotnog događaja, odnosno ne odbacivanje nulte hipoteze kada je ona zapravo istinita.
Ako testiramo nekoliko nezavisnih nultih hipoteza, kada su one zapravo sve istinite, vjerojatnost barem jedne pogreške tipa I jednaka je 1-(vjerojatnost da neće biti niti jedne pogreške tipa 1). U slučaju dva testa to bi bilo:
vjerojatnost barem jedne pogreške tipa I =
α2= 1 - [(1- α) x (1- α)] = 1-(1- α)2.
Kada je α = 0,05, tada je vjerojatnost barem jedne pogreške tipa I kod testiranja dvije nezavisne nulte hipoteze:
α2 = 1 - 0,952 = 1 - 0,90 = 0,10.
Za tri testa je vjerojatnost barem jedne pogreške tipa I:
α3 = 1 - 0,953 = 1 - 0,86 = 0,14.
Općenito, vjerojatnost barem jedne pogreške tipa I u seriji k nezavisnih nultih hipoteza kada su sve nulte hipoteze zapravo istinite jest:
αk = 1-(1-α)k.
Sada je zapravo jednostavno vidjeti da je za 20 testova vjerojatnost barem jedne pogreške tipa I kada su sve nulte hipoteze istinite jednaka 0,64. Slika 1. pokazuje da je potrebno 60 testova kako bi se dosegla vjerojatnost od 0,95 za dobivanje statistički značajnog rezultata o nekom učinku pukim slučajem i kada učinak zapravo ne postoji. Očekivani broj statistički značajnih rezultata u seriji k nezavisnih testiranja hipoteza kada su sve nulte hipoteze istinite izračunava se jednostavno kao:
k × α.
Problem te vrste pojavljuje se kada izvršimo testiranje hipoteze na višestrukim podskupinama ispitanih uzoraka. U istraživanju o vezi bolova u leđima i riziku od ishemijske bolesti srca sa smrtnim ishodom (6), autor je prikazao tablicu sa smrtnošću povezanom sa starosnom dobi kod muškaraca sa i bez boli u leđima podijeljenu u dvije dobne skupine i tri skupine prema uzroku smrti.
 
 
Slika 1. Vjerojatnost barem jedne pogreške tipa I, kao funkcija broja nezavisnih testova hipoteza izvedenih na istom skupu podataka, u slučaju kada su sve nulte hipoteze istinite, a razina statističke značajnosti α postavljena na 0,05.
 
Rezultati testa usporedbe skupina sa i bez boli u leđima iskazani bili su iskazani pomoću P vrijednosti za svaku od šest podskupina, plus dodatne dvije za sve uzroke u obje dobne skupine. Samo je jedna od objavljenih P vrijednosti bila niža od 0,05 (0,02), dok su ostale bile u rasponu od 0,10 do 0,99. Istaknuto je, dakle, da nije pronađena veza između bolova u leđima i bilo koje vaskularne bolesti kod žena, što navodi na zaključak da je autor izveo isti broj testova u podskupini žena. To bi bilo sveukupno barem 16 testova, među kojima je samo jedan smatran „značajnim”, točno onoliko koliko bismo očekivali da će se dogoditi pukim slučajem. Problem višestrukog testiranja često se pojavljuje kod pokusa na mikropostrojima (7). Uzmimo kao primjer određivanje nekoliko alela u skupini nasumično odabranih bolesnika s određenom bolešću i skupinu nasumično odabranih kontrolnih ispitanika. Broj testova trebao bi odgovarati broju alela koji se određuju, ako je učestalost alela jednaka u obje populacije. Za 30 alela vjerojatnost lažnog značajnog rezultata iznosi 0,76, dok se za 50 alela povećava na 0,92.
Jedan način rješavanja tih problema jest prilagoditi ili minimalnu prihvaćenu razinu statističke značajnosti ili P vrijednosti dobivene iz serije nezavisnih testova, kako bi se očuvala ukupna razina značajnosti. Ako prilagodimo minimalnu prihvaćenu razinu statističke značajnosti, uspoređujemo „originalne” P vrijednosti s prilagođenom razinom statističke značajnosti. Ako prilagodimo P vrijednosti, uspoređujemo prilagođene P vrijednosti s originalno postavljenom razinom statističke značajnosti.
Uobičajen način prilagođavanja prvotne P vrijednosti (ponekad je nazivamo „nominalnom” P vrijednosti) za višestruko testiranje jest upotreba Bonferronijeve metode (1). Prema toj se metodi prilagodba radi množenjem nominalnih P vrijednosti s brojem izvedenih testova. Dakle, ako smo napravili tri nezavisna testa, koji su kao rezultat imali P vrijednosti 0,020, 0,030 i 0,040, onda su prilagođene P vrijednosti po Bonferroniju 0,060 (za 0,020), 0,090 (za 0,030) i 0,120 (za 0,040). Dok su „originalni” rezultati za sva tri testa bili smatrani statistički značajnima na razini 0,05, nakon prilagodbe niti jedan od njih nije ostao statistički značajan.
Bliska Bonferronijevoj metodi je Šidakova metoda (Sidak) (7). Korigirane P vrijednosti po Šidaku računaju se kao:
pk = 1 – (1 – p)k.
Drugi se problem pojavljuje ako imamo višestruke mjere ishoda, u tom slučaju testovi općenito neće biti nezavisni. Ostali problemi kod višestrukog testiranja nastaju kada imamo više od dvije skupine ispitanika te želimo usporediti svaki par skupina ili kad imamo niz promatranja unutar duljeg vremena te želimo testirati svako razdoblje posebno. Za probleme kod visoko koreliranih višestrukih testova spomenute metode nisu prikladne, budući da bi bile prekonzervativne te možda ne bi prepoznale stvaran učinak (1).
Problem višestrukog testiranja je ozbiljan problem u znanstvenom istraživanju. Izostanak prilagodbe zbog višestrukog testiranja stvara ozbiljnu sumnju u dobivene rezultate, zbog činjenice da višestrukost povećava razinu značajnosti i smanjuje snagu testa u istraživanju, tim više ako usporedbe nisu prethodno planirane niti specificirane. Stoga se problem višestrukosti ne smije olako shvatiti. Danas postoje brojne metode za prilagođavanje višestrukosti koje bi se trebale upotrijebiti u susretu s tim problemom. Ako dovoljno dugo i uporno ispitujemo podatke, oni će naposljetku „priznati” da ipak negdje postoji statistički značajna razlika. No ta će značajnost biti nepouzdana te je vjerojatno da će i zaključci utemeljeni na takvim statistički značajnim rezultatima biti lažni.
 
Zaključak
 
Testiranje statističke hipoteze česta je metoda statističkog zaključivanja. Postoji nekoliko jednako važnih pitanja o kojima nismo raspravljali u ovom članku, neka od kojih su odabir pravog testa, upotreba jednosmjernih ili dvosmjernih testova, razlikovanje statističke značajnosti i praktične važnosti. Jednako je važno čitatelju znanstvenih i stručnih časopisa, kao i samom istraživaču, razumjeti osnovnu ideju postupka testiranja statističke hipoteze, kako bi mogao donijeti ispravne odluke i zaključke o rezultatima istraživanja.
Još jedna stvar zaslužuje pažnju, kada se govori o rezultatima istraživanja. Izvještavati o značajnoj razlici, a ne govoriti pritom i o veličini te promatrane razlike (odnosno o veličini učinka) i odgovarajućim intervalima pouzdanosti, ne daje potpunu sliku dobivenog rezultata. Stoga se u statističkom zaključivanju preporuča korištenje i statističkog testiranja i metoda za procjenu veličine učinka.
 
Literatura
 
1.     Bland JM, Altman DG. Statistics notes: Multiple significance tests: the Bonferroni method. BMJ. 1995;310:170.
2.     Altman DG. Practical statistics for medical research. 1st ed. London: Chapman&Hall/CRC, 1991.
3.     McHugh ML. Power analysis in research. Biochemia Medica. 2008;18:263-74.
4.     Altman DG, Bland JM. Statistics notes: Absence of evidence is not evidence of absence. BMJ. 1995;311:485.
5.     Bland M. An Introduction to Medical Statistics. 3rd ed. New York: Oxford University Press, 2000.
6.     Penttinen J. Back pain and risk of fatal ischaemic heart disease: 13 yeas follow up of Finnish farmers. BMJ. 1994;309:1267-8.
7.     Dudoit S, Popper Shaffer J, Boldrick JC. Multiple Hypothesis Testing in Microarray Experiments. Stat Sci. 2003;18:71-103.