Contact

Daria Pašalić
Editor-in-Chief
Department of Medical Chemistry, Biochemistry and Clinical Chemistry
Zagreb University School of Medicine
Šalata ul 2.
10 000 Zagreb, Croatia
Phone +385 (1) 4590 205; +385 (1) 4566 940
E-mail: dariapasalic [at] gmail [dot] com

Useful links

 

Odabrane teme iz biostatistike

 

Ana-Maria Šimundić. Interval pouzdanosti. Biochemia Medica 2008;18(2):154-61.

Klinički zavod za kemiju, Klinička bolnica „Sestre milosrdnice“, Zagreb

*Adresa za dopisivanje: am [dot] simundic [at] gmail [dot] com

 

Sažetak

Interval pouzdanosti za bilo koju statističku mjeru predstavlja raspon mogućih vrijednosti unutar kojega se s izvjesnom vjerojatnosti nalazi ta statistička mjera populacije. Kao takav, interval pouzdanosti je objektivna procjena (ne)preciznosti i veličine uzorka nekog istraživanja. Stoga, na interval pouzdanosti posredno možemo gledati i kao na mjerilo kvalitete uzorka i istraživanja. Interval pouzdanosti je omeđen granicama. Ovisno o razini pouzdanosti koju biramo, mijenja se i raspon, tj. granice intervala. Najčće korišteni intervali pouzdanosti u biomedicinskoj literaturi su 90%-tni, 95%-tni, 99%-tni i nešto rjeđe 99,9%-tni interval pouzdanosti. Što su granice intervala uže, preciznost procjene je veća. Tradicionalno se u literaturi najčće koristi 95%-tni interval pouzdanosti, koji je u svezi s opće prihvaćenom razinom statističke značajnosti P < 0,05. Za uzorak iste veličine vrijedi pravilo: što je manja razina pouzdanosti – veća je preciznost procjene. Samo istraživanja provedena na velikom uzorku će dati vrlo uski interval pouzdanosti koji ukazuje na veliku preciznost procjene, s visokom razinom pouzdanosti. Interval pouzdanosti moguće je pridružiti gotovo svakom statističkom pokazatelju. Iako postoje i neki drugi načini, interval pouzdanosti najčće računamo pomoću standardne greške. Interval pouzdanosti je komplementaran statistički pokazatelj s P vrijednosti. Oni govore o istoj stvari na dva različita načina i međusobno se nadopunjuju. P vrijednost nam govori o vjerojatnosti s kojom je moguće da se uočeni fenomen (razlika) dogodio slučajno, dok interval pouzdanosti nudi granice unutar kojih je moguće očekivati vrijednost tog fenomena. Posljednjih dvadesetak godina sve je više časopisa u kojima je obveza autora prikazati intervale pouzdanosti za svoje ključne rezultate. Prikaz intervala pouzdanosti pruža dodatnu informaciju o našem uzorku i rezultatima, i nadasve je korisna i nezamjenjiva nadopuna klasičnom testiranju hipoteze i opće prihvaćenoj P vrijednosti. Prikaz ključnih rezultata uz pripadajuće intervale pouzdanosti trebao bi postati standard svih znanstvenih časopisa, jer zainteresiranom čitatelju omogućuje bolje razumijevanje prikazanih podataka.

Ključne riječi: interval pouzdanosti, uzorak, standardna greška

Pristiglo: 7. veljače 2008.                                                                                                                                              Prihvaćeno: 1. travnja 2008.

 

Uvod

Svakom znanstvenom istraživanju prethodi temeljita analiza područja od interesa, postavljanje jasnog cilja i hipoteze te promišljeno planiranje ustroja istraživanja, načina prikupljanja i analize podataka kao i prikaza rezultata. Pritom je izbor reprezentativnog uzorka od presudne važnosti za uspješnost istraživanja (1). Dobar uzorak osigurava vjerodostojnost naših rezultata i zaključaka koji iz tih rezultata proizlaze. Ispitivanjem izvjesnih značajki uzorka, mi ustvari želimo steći uvid u stanje populacije. Populaciju je u cjelini najčće nemoguće u cijelosti ispitati. Dakle, temeljem onoga što deskriptivnom analizom prikupljenih podataka saznamo o našem uzorku, donosimo zaključke za populaciju u cjelini (2). To je osnovni koncept tzv. inferencijske statistike. Ono što pri tome podrazumijevamo jest činjenica da sve ono što saznamo o uzorku pouzdano vrijedi za cijelu populaciju.

Pretpostavimo, primjerice, da nas zanima kolika je prosječna koncentracija kolesterola u populaciji. Da bismo odgovorili na to pitanje izabiremo uzorak koji držimo reprezentativnim za tu populaciju i u tom uzorku odredimo srednju vrijednost koncentracije kolesterola. Slučajnim izborom odlučili smo se za uzorak (N = 121) u kojemu dobijemo srednju vrijednost koncentracije kolesterola 5,7 ± 1,4 mmol/L. Srednja vrijednost, tj. aritmetička sredina nam u ovom slučaju služi kao procjena (engl. point estimate) koncentracije kolesterola u populaciji. Ono što želimo znati jest odgovor na pitanje: možemo li dobivenu srednju vrijednost smatrati dobrom procjenom koncentracije kolesterola u populaciji. Koji statistički pokazatelj nam na to ukazuje? O čemu ovisi pouzdanost te procjene? Odgovor na ta pitanja daje nam interval pouzdanosti (engl. confidence interval, CI).

 

Što je interval pouzdanosti?

Interval pouzdanosti za bilo koju statističku mjeru predstavlja raspon mogućih vrijednosti unutar kojega se s izvjesnom vjerojatnosti nalazi ta statistička mjera populacije.

Vratimo se na primjer prosječne koncentracije kolesterola u populaciji. Izabrali smo slučajnim izborom jedan uzorak od 121 ispitanika i na njemu odredili srednju vrijednost koncentracije kolesterola. Potom ponovimo taj postupak još jednom i dobijemo neki novi uzorak s novom aritmetičkom sredinom. Uzorkovanje ponavljamo 100 puta i svaki put dobijemo neku aritmetičku sredinu koncentracije kolesterola. Svakoj aritmetičkoj sredini uzorka pridružujemo i pripadajući interval pouzdanosti. Od ukupno stotinu pripadajućih 95%-tnih intervala pouzdanosti, njih 95% će sadržavati pravu aritmetičku sredinu populacije (μ). To ujedno i jest najtočnija definicija intervala pouzdanosti.

Kao takav, interval pouzdanosti je objektivna procjena (ne)preciznosti i veličine uzorka nekog istraživanja (3). Stoga, na interval pouzdanosti posredno možemo gledati i kao na mjerilo kvalitete uzorka i istraživanja. Upravo zbog toga mnogi časopisi zahtijevaju od autora da svoje ključne rezultate u članku izraze uz pripadajuće intervale pouzdanosti (4,5).

Interval pouzdanosti je omeđen granicama. Ovisno o razini pouzdanosti koju biramo, mijenja se i raspon, tj. granice intervala. Najčće korišteni intervali pouzdanosti u biomedicinskoj literaturi su 90%-tni, 95%-tni, 99%-tni i nešto rjeđe 99,9%-tni interval pouzdanosti. Što su granice intervala uže, preciznost procjene je veća. Tradicionalno se u literaturi najčće koristi 95%-tni interval pouzdanosti, koji je u svezi s opće prihvaćenom razinom statističke značajnosti P < 0,05. Za uzorak iste veličine vrijedi pravilo: što je manja razina pouzdanosti – veća je preciznost procjene. Pogledajmo kako se raspon i granice intervala pouzdanosti mijenjaju u ovisnosti o razini pouzdanosti, na našem primjeru procjene koncentracije kolesterola populacije (Slika 1).

 

Slika 1. a) 90%-tni interval pouzdanosti; b) 95%-tni interval pouzdanosti; c) 99%-tni interval pouzdanosti srednje vrijednosti koncentracije kolesterola (N=121).

 

S 90%-tnom pouzdanosti možemo tvrditi da je koncentracija kolesterola u populaciji unutar granica intervala 5,49–5,91 mmol/L. Drugim riječima: ako sto puta slučajnim izborom odaberemo uzorak od 121 osobe i na tom uzorku odredimo srednju koncentraciju kolesterola i interval pouzdanosti te procjene, onda u deset od tih sto uzoraka interval pouzdanosti neće obuhvatiti pravu srednju vrijednost populacije. Ono što ne znamo jest – kojih je to deset uzoraka? Upravo to i jest ono što našu procjenu čini (ne)pouzdanom.

Ukoliko se odlučimo za 95%-tnu pouzdanost, granice intervala su 5,46–5,96 mmol/L i u pet slučajnih uzoraka neće obuhvatiti stvarnu srednju vrijednost populacije, dok najveći raspon pripada 99%-tnoj pouzdanosti (5,38–6,03 mmol/L). Što je širi interval pouzdanosti, veća je vjerojatnost da taj interval obuhvaća i srednju vrijednost koncentracije kolesterola u populaciji.

Samo istraživanja provedena na velikom uzorku će dati vrlo uski interval pouzdanosti koji ukazuje na veliku preciznost procjene, s visokom razinom pouzdanosti.

 

Kako izračunati interval pouzdanosti?

Interval pouzdanosti se može pridružiti gotovo svakoj statističkoj mjeri: koeficijentu korelacije (6), omjeru rizika (engl. odds ratio, OR) te primjerice mjerama dijagnostičke točnosti kao što su osjetljivost, specifičnost i neke druge (7). Iako postoje i neki drugi načini, interval pouzdanosti najčće računamo pomoću standardne greške. Standardna greška je standardna devijacija srednjih vrijednosti niza uzoraka, koju bismo dobili temeljem stotinu slučajnih uzoraka iz neke populacije (8).

Najprije valja odrediti razinu pouzdanosti s kojom želimo procijeniti srednju vrijednost nekog parametra u populaciji. Drugim riječima, zapravo se pitamo u kojoj mjeri si možemo/želimo dozvoliti pogrešnu procjenu? Najčće se odlučujemo za 95%-tnu pouzdanost, što znači da ćemo dozvoliti da samo u 5% slučajeva naš interval pouzdanosti ne obuhvati pravu srednju vrijednost populacije.

Granice intervala pouzdanosti računamo koristeći Z vrijednost, standardnu devijaciju uzorka (SD) i veličinu uzorka (n) prema formuli:

Donju granicu intervala pouzdanosti dobijemo tako da od srednje vrijednosti oduzmemo izračunati iznos iz formule, a gornju granicu tako da srednjoj vrijednosti dodamo taj isti iznos. Interval pouzdanosti definiramo kao:

Vrijednost Z ovisi o razini pouzdanosti za koju smo se odlučili. Valja istaknuti kako je interval pouzdanosti točan samo za uzorke koji slijede normalnu raspodjelu bez obzira na veličinu uzorka, dok je približno točan za velike uzorke koji nisu raspodijeljeni normalno. Ako se radi o malom uzorku (N < 30) u formulu za interval pouzdanosti valja umjesto Z unijeti t vrijednost. Vrijednost t proizlazi iz Studentove t raspodjele i ovisi o veličini uzorka, uz uvažavanje stupnjeva slobode N-1 (9). Za male uzorke t vrijednost je veća od Z vrijednosti, iz čega logično proizlazi da je interval pouzdanosti za manje uzorke uz istu razinu pouzdanosti širi. U Tablici 1 nalaze se Z vrijednosti za pripadajuće 90%, 95%, 99% i 99,9-tne razine pouzdanosti. Mnogi statistički udžbenici sadrže tablice s t vrijednostima za odgovarajuću razinu pouzdanosti i različite stupnjeve slobode (1).

 

Tablica 1. Z vrijednosti za najčešće razine pouzdanosti

 

Za naš primjer uzorka u kojem želimo odrediti prosječnu koncentraciju kolesterola u populaciji, interval pouzdanosti bismo računali koristeći Z vrijednost budući da se radi o velikom uzorku (N = 121) koji slijedi normalnu raspodjelu.

U našem primjeru srednju vrijednost koncentracije kolesterola uz pripadajući 95%-tni interval pouzdanosti bismo naveli kao: 5,7 mmol/L (95% CI = 5,46–5,96).

Kako danas mnogi statistički programi nude mogućnost izračuna i iskaza intervala pouzdanosti za većinu statističkih pokazatelja, malo tko će uistinu ručno računati interval pouzdanosti za svoje podatke. No, važno je poznavati ulazne varijable iz kojih računamo interval pouzdanosti kako bismo mogli bolje razumjeti njegovo značenje i interpretaciju.

 

Imaju li vrijednost P i interval pouzdanosti isto značenje?

P vrijednost i interval pouzdanosti su dva komplementarna statistička pokazatelja. Oni govore o istoj stvari na dva različita načina i međusobno se nadopunjuju. P vrijednost nam govori o vjerojatnosti s kojom je moguće da se uočeni fenomen (razlika) dogodio slučajno, dok interval pouzdanosti nudi granice unutar kojih je moguće očekivati vrijednost tog fenomena.

Interval pouzdanosti možemo računati za razliku ili omjer između bilo koja dva statistička pokazatelja, da bismo ispitali možemo li toj razlici ili omjeru pripisati statističku značajnost. Pogledajmo na primjeru s koncentracijom kolesterola u populaciji, kako interval pouzdanosti može poslužiti u procjeni statističke značajnosti razlike između dvije srednje vrijednosti.

Razlika u koncentraciji kolesterola između muškaraca i žena u našem uzorku je 0,22 mmol/L. Je li ta razlika statistički značajna? Imaju li žene u našem uzorku uistinu niže koncentracije kolesterola od muškaraca ili je opažena razlika samo slučajna? Odgovor na to pitanje daje nam t-test. Vrijednost P dobivena t-testom iznosi 0,426, što nam ukazuje da se koncentracije kolesterola u muškaraca i žena ne razlikuju statistički značajno. To isto, samo na drugačiji način nam govori i 95%-tni interval pouzdanosti razlike srednjih vrijednosti koncentracije kolesterola muškaraca i žena, koji iznosi od -0,322 do 0,757 (Tablica 2).

 

Tablica 2. Razlika u koncentraciji kolesterola između muškaraca i žena (N = 121)

 

Što možemo zaključiti iz tog intervala pouzdanosti? Prisjetimo se interpretacije intervala pouzdanosti: on definira granice unutar kojih s 95% pouzdanosti možemo očekivati pravu vrijednost. Naš interval pouzdanosti sadrži i nulu (0), što znači da je sasvim moguće da je prava vrijednost razlike ravna nuli, tj. da razlika koncentracije kolesterola muškaraca i žena ne postoji.

Kako interval pouzdanosti interpretiramo kad se on odnosi na omjer, kao što je primjerice OR? Recimo da smo svim našim ispitanicima iz uzorka (N = 121) slikovnim tehnikama procijenili prohodnost karotidnih arterija i prema nalazu ih podijelili u dvije skupine: one s prohodnim arterijama i one sa stenozom barem jedne karotidne arterije koja iznosi > 50% lumena. Zanima nas razlikuju li se te dvije skupine po prosječnoj koncentraciji kolesterola i je li koncentracija kolesterola čimbenik rizika za nastanak stenoze karotidnih arterija. Odgovor na to pitanje dati će nam OR (Tablica 3).

 

Tablica 3. OR i 95%-tni interval pouzdanosti koncentracije kolesterola u diskriminaciji osoba sa stenozom karotidnih arterija

 

OR je veći od 1, no interval pouzdanosti za OR obuhvaća brojku 1. Što to znači? To znači da je moguće da je jednako izgledno da koncentracija kolesterola jest i nije čimbenik rizika za stenozu karotidnih arterija. Odnosno, za bilo koju koncentraciju kolesterola izgledi da neka osoba ima ili nema stenozu karotidnih arterija su jednaki. O tome nam govori i postotak ispravno razvrstanih ispitanika s obzirom na koncentraciju kolesterola (50,41%). Tek svaki drugi ispitanik je razvrstan u odgovarajuću skupinu – dakle izbor ne ovisi o koncentraciji kolesterola, već je isključivo posljedica slučajnosti.

 

Zaključak

Interval pouzdanosti moguće je pridružiti gotovo svakom statističkom pokazatelju. Posljednjih dvadesetak godina sve je više časopisa u kojima je obveza autora prikazati intervale pouzdanosti za svoje ključne rezultate (nalaze). Prikaz intervala pouzdanosti pruža dodatnu informaciju o našem uzorku i rezultatima, i nadasve je korisna i nezamjenjiva nadopuna klasičnom testiranju hipoteze i opće prihvaćenoj P vrijednosti. Prikaz ključnih rezultata uz pripadajuće intervale pouzdanosti trebao bi postati standard svih znanstvenih časopisa, jer zainteresiranom čitatelju omogućuje bolje razumijevanje prikazanih podataka.

 

Literartura

1.    Glantz SA. Primer of biostatistics. 5th ed. New. York (NY): McGraw-Hill; 2002.

2.    Simundic AM. Types of variables and distribution. Acta Med Croat 2006;60(Suppl 1):17-35.

3.    Altman DG. Why we need confidence intervals. World J Surg 2005;29:554-6.

4.    Sterne JAC, Smith GD. Sifting the evidence – what’s wrong with significance tests? BMJ 2001;322:226-31.

5.    Russel I. Statistics – with confidence? BritJ Gen Pract 1991; 41: 179–80.

6.    Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. What we need to know when calculating the coefficient of correlation. Biochemia Medica 2007;17:10-5.

7.    Raslich MA, Markert RJ, Stutes SA. Selecting and interpreting diagnostic tests. Biochemia Medica 2007;17:151-61.

8.    McHugh M. Standard error. Biochemia Medica 2008;18:7-13.

9.    Bland M. An introduction to medical statistics. 3rd ed. New York (NY): Oxford University Press; 2000.