Contact

Daria Pašalić
Editor-in-Chief
Department of Medical Chemistry, Biochemistry and Clinical Chemistry
Zagreb University School of Medicine
Šalata ul 2.
10 000 Zagreb, Croatia
Phone +385 (1) 4590 205; +385 (1) 4566 940
E-mail: dariapasalic [at] gmail [dot] com

Useful links

Odabrane teme iz biostatistike

 

Mary L. McHugh. Analiza statističke snage testa u znanstvenom istraživanju. Biochemia Medica 2008;18(3):263-74.
Fakultet sestrinstva, Sveučilište Indianapolisa, Indianapolis, Indiana, SAD
*Adresa za dopisivanje: mchughm [at] uindy [dot] edu
 
Sažetak
Statistička snaga testa je mjera vjerojatnosti da će istraživač u uzorku naći statističku značajnost, ako učinak postoji u cijelokupnoj populaciji. Snaga testa je funkcija ovisna o tri primarna i jednom sekundarnom čimbeniku: veličini uzorka, veličini učinka, razini značajnosti i snazi korištenog statističkog testa. Najčešći razlog provođenja analize snage testa jest određivanje veličine uzorka potrebnog za određeno istraživanje. No, analiza snage testa može se izračunati i nakon završetka istraživanja kako bi se odredilo je li nedovoljna snaga bila razlog statistički neznačajnog učinka. Općenito, ne preporuča se post hoc analiza snage testa; ona bi se trebala provesti prije početka istraživanja. Njom se istražuje utjecaj veličine učinka, značajnosti, veličine uzorka i snage statističkih testova.
Ključne riječi: snaga testa, značajnost, veličina učinka, veličina uzorka, statistička snaga testa
Pristiglo: 1. srpnja 2008.                                                                                           Prihvaćeno: 6. kolovoza 2008.
 
 
Uvod
Snaga testa je vrlo važan koncept za istraživače, budući da je ona stup na koji se naslanjaju postignuća statističke značajnosti. Statistička značajnost je čimbenik istraživanja koji istraživači rabe kako bi odredili je li intervencija promijenila rezultat. To se ne može postići testom nedovoljne snage. S druge strane, iznimno jaka snaga testa može utjecati na istraživača da pridoda mnogo veće značenje statističkom rezultatu nego što to opravdava klinička situacija. Svrha ovoga članka jest dati pregled temelja statističke snage testa te informacije o tome kako se ona rabi u svrhu povećanja vjerojatnosti dobivanja pouzdanih informacija iz istraživanja.
 
Značenje snage testa
U kontekstu istraživanja, snaga se odnosi na vjerojatnost da će istraživač naći značajan rezultat (učinak) u uzorku ako takav učinak postoji u populaciji koju ispituje (1). Uporabom nul-hipoteze istraživač postavlja pitanje o značajnom rezultatu. Nul-hipoteza uvijek iznosi hipotezu da ne postoji razlika između eksperimentalne i kontrolne skupine za varijable koje se ispituju. Nul-hipoteza je ono što sve inferencijske statistike testiraju.
Vrijednosti koje snaga može podnijeti sežu od 0,0 do 1,0. Te se vrijednosti ne mogu tumačiti izravno. Međutim, vjerojatnost pogreške tipa II. računa se kao 1 – snaga. Stoga vrijedi da, što je veća snaga, to je vjerojatnije da će se otkriti značajan učinak. Kada je snaga manja, nije vjerojatno da će istraživač naći učinak i time odbaciti nul-hipotezu, čak i kada postoji stvarna razlika između eksperimentalne i kontrolne skupine. Učinak koji istraživač želi naći jest alternativna hipoteza – što zapravo predstavlja hipotezu istraživanja. To se obično izražava ovim riječima: „Postoji razlika između eksperimentalne i kontrolne skupine”. Opisana na drugi način, snaga je vjerojatnost da će lažna nul-hipoteza (odnosno, postoji učinak u cjelokupnoj populaciji) biti odbačena (vidi tablicu 1.). Kada se odbaci nul-hipoteza, prihvaća se ona alternativna. Neizravno to znači da je snaga ključni čimbenik sposobnosti istraživača da izvuče točan zaključak iz podataka koje mu daje uzorak.
 
Tablica 1. Pogreške tipa I. i II.
 
 
Problemi sa snagom mogu dovesti do različitih pogrešaka u tumačenju statističkih rezultata. Mogu navesti istraživača na zaključak da eksperimentalno liječenje nije polučilo učinak, a taj učinak zapravo postoji u populaciji. Mogu ga navesti na netočan zaključak kako postoji značajan učinak, koji doista i postoji, no toliko je malen da je beznačajan. Stoga je važno da svaki istraživač shvati značenje snage testa i čimbenika koji utječu na statističku snagu testa, kako bi statistički zaključci bili točniji i pouzdaniji.
 
Temelji statističke snage testa
Statistička snaga testa je funkcija ovisna o tri čimbenika (vidi sliku 1.) i jednom dodatnom čimbeniku. Primarni su čimbenici veličina učinka i uzorka te razina značajnosti koja se rabi u istraživanju. Sekundarni čimbenik je snaga primijenjenih statističkih testova. Kada su poznata bilo koja dva primarna čimbenika iz njih se može izračunati treći. A kada su poznata sva tri primarna čimbenika može se izračunati snaga statističkog rezultata. Jednako važno je da se, kad su poznati snaga i samo jedan primarni čimbenik – veličina učinka, može izračunati veličina uzorka potrebna za postizanje statističke značajnosti.
 
Slika 1. Tri komponente snage testa.
 
Veličina uzorka
Prvi čimbenik – i čimbenik koji je pod najizravnijom kontrolom istraživača – jest veličina uzorka. Veličina uzorka je zapravo jedini čimbenik koji istraživač zaista može kontrolirati. Ona vrlo izravno i snažno utječe na statističku snagu testa u svakom istraživanju. Jednostavno rečeno, što je veći uzorak, to je veća statistička snaga. Suprotno tome, kada je uzorak malen, statistička snaga je slaba. To je logički istinito jer znamo da bi istraživač, kad bi mogao ispitati čitavu, cjelokupnu populaciju, imao potpunu moć naći bilo koji učinak koji postoji u populaciji za mjerene varijable. Zapravo bi tada inferencijska statistika bila nepotrebna. Inferencijska statistika dozvoljava istraživaču da iz uzorka izvede zaključak (procijeni) o veličini učinka u populaciji. Kad bi se ispitivala cijela populacija, ne bi bilo potrebno procjenjivati učinak, budući da bi njegova veličina bila odmah poznata. Drugim riječima, ako istraživač ispituje cjelokupnu populaciju, snaga statističkog testa je 100%, jer je tada svaki učinak otkriven.
Nadalje, ako istraživač ispituje cjelokupnu populaciju nema opasnosti da uzorak bude slaba procjena populacije. Iako uzorkovanje nije tema ovoga članka, važno je naglasiti da je inferencijska statistika točna u onolikoj mjeri u kojoj uzorak predstavlja populaciju. Stoga, niti jedna teorija koja podupire istraživanje uzorka ne vrijedi ako istraživač sakupi pristran uzorak (odnosno uzorak koji ne predstavlja populaciju). Kod istraživanja koje rabi cjelokupnu populaciju ne postoji opasnost od nereprezentativnog rezultata.
Obrnuto, dobro je poznato da su vrlo mali uzorci nepouzdani procjenjivači nekog populacijskog parametra. Niti jedan savjestan istraživač neće niti pokušati predvidjeti djelovanje novog lijeka na milijunsku populaciju uzimajući samo jednu osobu kao uzorak. Visoka vjerojatnost pogrešnog zaključka ako je „N = 1” je toliko dobro poznata da je postala kliše. Veličina uzorka od 5 ispitanika bi isto tako bila loša za testiranje djelovanja novog lijeka. Taj je uzorak premalen da bi mogao predstavljati široku populaciju. Zapravo, često rabljeno nepisano pravilo u istraživanjima kaže kako se uzorci manji od 30 ispitanika smatraju malima i da bi se trebali rabiti samo u probnim istraživanjima.
Tada se nameće pitanje: „Koja je veličina uzorka potrebna istraživaču kako bi otkrio učinak ako dotični postoji u populaciji?” Tipični način pronalaska odgovora na to pitanje zove se analiza statističke snage testa (engl. power analysis) i uključuje izvođenje matematičkih izračuna kako bi se odredilo koja je veličina uzorka potrebna za otkrivanje učinka određene veličine. Kako bi izračunao potrebnu veličinu uzorka istraživač mora znati veličinu učinka. Treba također naglasiti da ponekad istraživač otkrije kako umjerena veličina učinka nije statistički važna. U tom se slučaju može provesti analiza statističke snage, ako je problem statističke značajnosti bio nedovoljno snažan zbog nedostatne veličine uzorka.
Postoje razni programi dostupni na internetu koji pomažu istraživaču brzo odrediti veličinu uzorka. Jedan od najkorisnijih može se naći na mrežnoj stranici Sveučilišta u Iowi: http://www.stat.uiowa.edu/črlenth/Power/index.html (2). Korisnik prepoznaje statistički test koji rabi, unosi podatke o veličini učinka i program će izračunati potrebnu veličinu uzorka te određenu razinu statističke snage. Na primjer, pretpostavimo da istraživač planira provesti istraživanje na dva slučajno odabrana uzorka od kojih je jedan bio na eksperimentalnom liječenju, a drugi nije. Tipični test za ispitivanje razlika između skupina je t-test. Početna stranica nudi izbornik s različitim statističkim testovima. Kad korisnik dvostrukim pritiskom na lijevu tipku miša odabere jedan od tih testova, na zaslonu se pojavi grafičko korisničko sučelje (engl. graphical user interface, GUI) s kalkulatorom (slika 2.). Treba obratiti pozornost na to da je na slici 2. veličina učinka 0,50, ali je snaga tek 0,41. Te razine rezultiraju potrebnom veličinom uzorka od samo 25 ispitanika u svakoj skupini (ukupno N = 50). Međutim, ta je snaga preslaba za istraživanje, pa je na slici 3. snaga postavljena na 0,80, tako da se mišem klikne i povuče alatna traka u odjeljku Power. Zanimljivo je da je veličina uzorka po skupini potrebna za pronalaženje učinka veličine 0,50 i snage 0,80 narasla na N = 63. Pretpostavimo kako istraživač želi snagu od 0,80, ali sumnja da će veličina učinka biti samo 0,35. Slika 4. pokazuje da je veličina uzorka potrebna za pronalaženje tog učinka porasla na 129 ispitanika po skupini. Na taj način istraživač može rabiti internet stranicu Sveučilišta u Iowi u određivanju veličine uzorka koji će biti potreban za postizanje značajnosti za određenu veličinu učinka i razinu snage. Upute za uporabu kalkulatora snage mogu se naći na mrežnoj stranici: http://hschealth.uchsc.edu/son/pdf3/PowerCalculatorsHowTo.pdf. Druga stranica s dodatnim izračunima snage i veličine uzorka mogu se naći na internet stranicama Sveučilišta Harvard: http://hedwig.mgh.harvard.edu/sample_size/size.html.
 
 
Slika 2. Kalkulator snage testa s internet stranica Sveučilišta u Iowi – t-test kalkulator.
 
 
 
Slika 3. Potrebna veličina uzorka kada je snaga povećana na 0,80.
 
 
 
Slika 4. Promjena veličine uzorka zbog veličine učinka.
 
Veličina učinka
Veličina učinka predstavlja veličinu razlike između liječene i neliječene skupine u istraživanju, odnosno predstavlja magnitudu učinka liječenja (3). Istraživači provode eksperimentalna istraživanja kako bi testirali veličinu učinka. Odnsno, tipično je da istraživači teže otkriti ima li liječenje učinak kod eksperimentalnih ispitanika, i ako je tako, koju veličinu učinka je ono proizvelo? Ljudi često misle na korelaciju kada govore o veličini učinka. To je normalna pojava budući da su korelacije mjere veličine učinka. Međutim, statistički testovi za ispitivanje razlika kao što su t-test i ANOVA također imaju svoju veličinu učinka. Zapravo, mjera veličine učinka za t-test je point-biserijski koeficijent korelacije, a za ANOVU Eta-square statistika.
Svi statistički testovi koji se upotrebljavaju za mjerenje učinka liječenja – dakle, čitava inferencijska statistika – imaju odgovarajuću mjeru za veličinu učinka. Niti jedan istraživač ne bi trebao objavljivati značajnost, a da pritom ne objavi i veličinu učinka. Iako sofisticiran i statističkim znanjima i vještinama potkovan čitatelj može iz veličine uzorka i razine značajnosti sam procijeniti veličinu učinka, nema potrebe da on sam izvodi izračune. Odgovornost je istraživača pružiti čitatelju podatke potrebne za ispravno vrednovanje istraživanja.
Kao što je prethodno spomenuto, podatak o razini značajnosti i veličini uzorka može navesti čitatelja na krivi zaključak. To je zbog toga što će vrlo velik uzorak, dakle 1000 ili više ispitanika, dati značajan rezultat čak i za vrlo mali učinak. Pogledajmo što to znači na primjeru izvještavanja o značajnoj korelaciji između primjene nekog biljnog pripravka i kraćeg tijeka neke poznate bolesti, recimo obične prehlade. Čitatelji bi iz značajnog rezultata mogli pretpostaviti da će im se stanje znatno brže poboljšati ako samo taj biljni pripravak uzmu u trenutku kada im započne prehlada. Međutim, da je uzorak bio 2500 ispitanika i da je trajanje prehlade u skupini koja je dobila tu biljku kao lijek bilo samo 5 minuta dulje, taj bi rezultat bio statistički značajan dok klinički ne bi bio značajan. Bitno je da istraživač razumije kako će ekstremno visoka razina snage dati statistički značajne rezultate, čak i za krajnje male uzorke.
Postoji bitna razlika između statističke i kliničke značajnosti. Za prosječnu čitalačku publiku ova vrst razlike može izgledati vrlo složena. Međutim, istraživači bi trebali biti svjesni činjenice da veliki uzorci vrlo dobro polučuju pouzdane rezultate, no oni također daju značajne rezultate za gotovo sve veličine učinka. Kada su lijekovi, biljni pripravci i ostala kemijski aktivna sredstva predmet ispitivanja, bitno je ne uzimati u obzir samo statističku značajnost. Veličina učinka se također mora uzeti u obzir. Jako mali učinci (oni od 0,30 ili manje) trebali bi se uzeti u obzir s oprezom. Oni bi se prije mogli smatrati slučajnim nego pouzdanim učincima u širokoj populaciji. Oni kazuju kako je liječenje izazvalo mali učinak na zavisnoj varijabli. Ta bi se veličina učinka trebala kvadrirati kako bi se ocijenio postotak varijance u zavisnoj varijabli koji je proizvela nezavisna varijabla. Stoga, učinak veličine 0,30 znači da je liječenje objasnilo samo 9% razlike u zavisnoj varijabli; 91% učinka na zavisnoj varijabli nije objašnjeno nezavisnom varijablom. Stoga se može zaključiti kako je učinak liječenja bio premalen da bi se ljudima preporučilo da odvoje novac za liječenje – naročito stoga što će ta terapija (lijek ili biljni pripravak) gotovo sigurno imati i neželjene nuspojave kod nekih ljudi. Rizik od nuspojava nije vrijedan male moguće koristi.
U slučaju da istraživač možda ne zna koliki učinak treba očekivati od liječenja, kako onda može rabiti izračune za određivanje potrebne veličine uzorka? Postoje dva načina na koja istraživač može odrediti veličinu učinka: prijašnja istraživanja i minimalna veličina učinka od interesa.
Ako su provedena prethodna istraživanja, njihova veličina učinka može poslužiti istraživaču kao najbolja procjena veličine učinka kojim bi liječenje moglo rezultirati. Kad su takva istraživanja dostupna, njihova bi se veličina učinka trebala uzeti u obzir. Međutim, uobičajenija je situacija da ne postoje prethodna istraživanja za izvorno istraživanje ili se ta prethodna istraživanja previše razlikuju od onog izvornog. Moguće je da su prethodna istraživanja bila provedena na životinjskim vrstama različitima od onih koje predloženo istraživanje planira rabiti.
Za minimalnu veličinu učinka nema prihvaćenog standarda. Ona može varirati ovisno o situacijama. Na primjer, ako postoji ozbiljna bolest bez učinkovite terapije, minimalna veličina učinka može biti relativno mala. Ako novi lijek uzrokuje samo 10% poboljšanja u rezultatima, to bi moglo biti korisno za bolesnike. Kako bi se postiglo tih 10% veličina učinka mora biti 0,32, a to znači da se 32% promjene u zavisnoj varijabli može pripisati liječenju. Međutim, ako postoji prihvaćeno liječenje s poznatim učinkom, minimalna veličina učinka bi trebala, u većini slučajeva, biti veća za jednu cijelu veličinu učinka od učinka poznatog liječenja. Na primjer, ako poznato liječenje pokaže učinak veličine 0,45, novi lijek bi morao imati učinak od barem 0,55. Ili možda veličina učinka novog lijeka iznosi samo 0,45, ali on ima znatno manje nuspojava (ili su manje ozbiljne). Kao što se može vidjeti, odabir minimalne veličine učinka je rezultat istraživačeva poznavanja srodnih istraživanja i njegove dobre procjene.
U kliničkim istraživanjima istraživač određuje najmanju veličinu učinka koja bi bila klinički važna. Ako su rezultati zbog velikog uzorka statistički značajni, a klinički učinak u ljudskoj populaciji beznačajan, tada rezultati nisu klinički značajni. To je drugačiji standard od standarda za statističku značajnost.
Kao primjer uzmimo da medicinski istraživač proučava sepsu koja nije uzrokovana na meticilin rezistentnim zlatnim stafilokokom (engl. non-MRSA). Standardni lijek koji je u upotrebi ima stopu preživljenja od 60%. Novi lijek nudi stopu preživljenja od 62% u uzorku od 2204 ispitanika. Veličine učinka su 0,77 za standardni i 0,79 za novi lijek (iznosi su zaokruženi). Općenito, novi će lijek biti puno skuplji. Je li 2% poboljšanja rezultata vrijedno milijuna dolara godišnje više za troškove liječenja? Ako troškovi liječenja ostanu isti, jesu li nuspojave drugačije? Koju bi veličinu učinka istraživač zahtijevao u ovom tipu istraživanja lijeka, ako se dogodi da ili troškovi novog lijeka budu puno viši ili ako novi lijek ima neugodne ili opasne nuspojave? Ovo su pitanja koja istraživač mora uzeti u obzir kada odabire minimalnu veličinu učinka.
Kada jednom odredi potrebnu veličinu učinka, istraživač ju jednostavno unese u kalkulator s minimalnom veličinom učinka i kalkulator odredi veličinu uzorka potrebnu za određivanje veličine učinka. Ako učinak postoji, ali je manji od minimalne veličine učinka za istraživanje, neće postići značajnost. Ako postoji učinak veličinom isti ili veći od minimalnog učinka od interesa, rezultat će biti značajan. Na taj način istraživač može planirati probno istraživanje koje neće samo pomagati preliminarnim testiranjem instrumenata i postupaka prikupljanja podataka, nego će isto tako poboljšati vjerojatnost isplativosti provođenja glavnog istraživanja.
 
Razina značajnosti
Razina značajnosti istraživanja, također zvana i P-razinom, obično se postavlja znanstvenom konvencijom. Na primjer, u većini društveno znanstvenih istraživanja razina značajnosti trebala bi biti 0,50 ili manja. U nekim istraživanjima lijekova P-razina mora biti niža od 0,50 zbog nadzornih državnih propisa za djelotvornost i sigurnost. Značajnost predstavlja vjerojatnost pojave pogreške tipa I. To znači kako postoji vjerojatnost da će istraživač krivo tvrditi kako je postigao značajan učinak kad u populaciji nije bilo učinka (vidi tablicu 1.).
S vrlo malim uzorkom, ili uzorkom koji je slabo zastupljen u populaciji, uvijek je visoka vjerojatnost da neće biti učinka ili suprotno, da bilo koji učinak pronađen u uzorku neće biti prisutan u cjelokupnoj populaciji. Stoga, kada se provode probna istraživanja s malim uzorkom, uobičajeno je da istraživač postavi razinu značajnosti više nego obično kako bi nadoknadio mali uzorak. Zato kada je konvencionalna razina značajnosti P < 0,50, u probnom bi se istraživanju mogla rabiti P-razina od 0,10 ili čak 0,20. Svrha više razine značajnosti u probnom istraživanju jest izbjegavanje odbacivanja onoga što bi inače moglo biti obećavajući ishod istraživanja temeljem probnog istraživanja u kojem nije nađen učinak liječenja. Zbog trenutne sklonosti urednika da objavljuju članke o probnim istraživanjima, čitatelji bi uvijek trebali imati na umu činjenicu da se istraživanja koja o učinaku izvještavaju na razini P < 0,10 ili višoj ne bi trebala primjenjivati na bolesničkoj populaciji, ili bi se na ljudskoj populaciji trebala primjenjivati uz najviši nadzor i oprez. Kod takvih je istraživanja vjerojatno da se učinci nađeni u uzorku jako razlikuju od onih u populaciji.
Također treba naglasiti, da kada istraživač objavi članak o probnom istraživanju uz primjenu povećane α-razine, veličina uzorka može biti dosta manja kako bi se sačuvala značajnost na istoj razini statističke snage i veličine učinka. Na slici 5. se vidi da je kod snage 0,80 i veličine učinka od 0,35, potreban uzorak od samo 74 ispitanika u svakoj skupini kako bi se sačuvala „značajnost” kad je P-razina postavljena na 0,20. S P-razinom od 0,05 u istom je istraživanju potrebno 129 ispitanika u svakoj skupini kako bi se postigla značajnost (vidi sliku 4.).
Manje je vjerojatno da će se otkriti pogreška tipa II. nego ona tipa I. Razlog tome je to što kada se dogodi pogreška tipa II., izvodi se zaključak da učinak ne postoji. Stoga se smjer istraživanja može napustiti. S pogreškom tipa I. vrlo je vjerojatno da će drugi istraživači testirati učinak o kojem se izvještavalo. Kada velik broj njih ne uspije dobiti učinak, priznat će se orginalna pogreška tipa I. Dakle, vjerojatnost pogreške tipa I. jednaka je razini značajnosti istraživanja. Nakon toga dolazi vjerojatnost pogreške tipa II. Ta se vjerojatnost računa kao 1-β. Budući da se statistička snaga vrlo često postavlja na 0,80, uobičajena vjerojatnost pogreške tipa II. je 1–0,80 ili 0,20. Dakle, dok je uobičajena vjerojatnost pogreške tipa I. 5%, tipična vjerojatnost pogreške tipa II. je 20%.
 
 
Slika 5. Promjena veličine uzorka zbog promijene u značajnosti
 
Statistički testovi
Sekundarni čimbenik koji utječe na statističku snagu je statistički test koji se rabi. Svaki test ima svoju razinu snage. Parametrijski testovi su sami po sebi jači od neparametrijskih, no to vrijedi samo ako se ispravno provode. Neparametrijski testovi su sami po sebi manje snažni od parametrijskih, no to vrijedi samo ako podaci i metoda istraživanja primijenjeni za dobivanje podataka podupiru upotrebu parametrijskih testova.
Parametrijski testovi povezani su s nizom pretpostavka o podacima. Kada se te pretpostavke prekrše, parametrijski testovi postaju nestabilni te mogu dati rezultate koji navode na krivi trag. Pretpostavke parametrijskih testova sadržavaju najčešće slijedeće: intervalna ili odnosna (omjerna) razina mjerenja barem zavisne varijable, slučajno raspoređivanje ispitanika u skupine, slučajno uzorkovanje ciljne populacije, jednake varijance među skupinama za zavisnu varijablu i ostale slične pretpostavke. Te se pretpostavke temelje na činjenici da se parametrijski testovi obično zasnivaju na metodi najmanjih kvadrata (linearna regresija), koja rabi srednju vrijednost kao temelj za računanje. U slučaju kada srednja vrijednost nije prikladna mjera centralne tendencije podataka, treba posegnuti za neparametrijskim testovima (ili testovima neovisnim o distribuciji podataka) za testiranje hipoteza. Neparametrijski testovi obično rabe medijan ili raspon podataka kao temelj svojih kalkulacija. Oni stoga imaju puno manje pretpostavaka nego parametrijski testovi.
Kada istraživač neprikladno upotrebljava parametrijske testove kako bi ispitao podatke koji nisu prilagođeni parametrijskoj statistici, tada se snaga rezultata dovodi u pitanje. Autorica je osobno vidjela niz slučajeva u kojima parametrijski testovi primijenjeni na podacima koji se odnose na skupu s ordinalnim varijablama (engl. ordinal data) nisu uspjeli naći značajan učinak, za razliku od neparametrijskih koji su ga pronašli. Moguće je također i suprotno. Ispravno primijenjen parametrijski test, budući da je snažniji, pronašao je značajan učinak liječenja koje analogni neparametrijski test nije pronašao. Kako bi snaga u istraživanju bila primjerena, bitno je da istraživač rabi statističke testove sukladno podacima za testiranje hipoteze.
 
Zaključak
Snaga je primarno funkcija veličine uzorka, veličine učinka i razine značajnosti (engl. alpha-level, p-level) i sekundarno primijenjenog statističkog testa za ispitivanje razlika između uzoraka. Čimbenik kojim istraživači najspremnije i najlakše barataju jest veličina uzorka. Primarna funkcija analize snage testa jest određivanje veličine uzorka potrebne za postizanje statističke značajnosti u istraživanju. Međutim, snaga se rabi i u probnim istraživanjima, kako bi se utvrdili učinci liječenja koji su preslabi da bi bili vrijedni istraživanja te da se odrede idealne razine značajnosti koje će se primijeniti u glavnom istraživanju. Postoji niz kalkulacija analize snage koje su dostupne na internetu i uporaba istih može biti korisna pomoć istraživačima u planiranju istraživanja. Trebalo bi im ući u naviku utvrditi potrebnu veličinu uzorka prije početka istraživanja. Može se naići na niz problema kod tumačenja rezultata ispitivanja ako istraživač ne shvati statističku snagu te način na koji se ona postiže. To uključuje i krivo tumačenje razultata zbog ili vrlo niske ili vrlo visoke snage te zbog neprikladnog odabira statističkog testa za testiranje hipoteze. Međutim, kada je snaga odgovarajuća i kada se ispravno rabe statistički testovi, tada se vjerojatnost ispravnog zaključka znatno povećava.
 
Literatura
1.    Cohen J, Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Hillsdale, New Jersey: Lawrence Erlebaum Associates; 1998.
2.    Lenth RV. Java Applets for Power and Sample Size ŠComputer softwareĆ; 2006 Downloaded on June 10, 2008, from http://www.stat.uiowa.edu/črlenth/Power/index.html
3.    Becker L, Effect size. Downloaded on June 3 from http:web.uccs.edu/lbecker/Psy590/es.htm.