Contact

Daria Pašalić
Editor-in-Chief
Department of Medical Chemistry, Biochemistry and Clinical Chemistry
Zagreb University School of Medicine
Šalata ul 2.
10 000 Zagreb, Croatia
Phone +385 (1) 4590 205; +385 (1) 4566 940
E-mail: dariapasalic [at] gmail [dot] com

Useful links

Izvorni znanstveni članak

 

Željko Debeljak. Premošćivanje jaza između tehnologije mikropostroja i rutinske kliničke dijagnostike: pristup smanjenju dimenzionalnosti profila genske ekspresije zasnovan na slučajnim šumama. Biochemia Medica 2006;16(2):150-62
 
Odjel za medicinsku biokemiju. Klinička bolnica Osijek, Osijek
Corresponding author: debeljak [dot] zeljko [at] kbo [dot] hr
 
Sažetak
 
Uvod: Analiza genske ekspresije zasnovana na mikropostrojima je tijekom proteklog desetljeća prepoznata kao koristan alat od strane znanstvene zajednice, ali nije ušla u rutinsku dijagnostičku primjenu. Kako je skupa i podložna značajnim eksperimentalnim varijacijama, na trenutnom tehnološkom stupnju razvoja ta tehnologija nije prikladna za rutinske kliničko-dijagnostičke primjene. U svrhu premošćivanja jaza između mogućnosti navedene tehnologije i potreba kliničke dijagnostike razvijeni su različiti računalni alati za smanjenje dimenzionalnosti. Njihova osnovna svrha je odabir malog skupa kandidata za biomarkere iz ogromnog skupa sadržanog u profilima genske ekspresije prikladnog za rutinsko postavljanje dijagnoze.
Cilj: Slučajna šuma (engl. Random Forest, RF) se nametnula kao pouzdan pretkazatelj. Ipak, njene su mogućnosti u odabiru relevantnih gena privukle manje pažnje. Cilj ove studije je evaluacija prikladnosti na RF-u zasnovanoga odabira biomarkera iz skupova genskih profila. Tri takva skupa, preuzeta iz literature, prikupljena tijekom manjih kliničkih pokusa izabrana su u navedenu svrhu.
Rezultati: Dobiveni rezultati ukazuju da RF može lako identificirati dobre univarijatne klasifikatore, tj. pojedinačne biomarkere kada je složenost skupa mala. Za nešto složenije probleme pouzdani dvodimenzionalni klasifikator može se također pronaći. Ipak, ako je odnos između dijagnoze/prognoze i profila genske ekspresije vrlo složen ili ako je skup premalen, na RF-u zasnovano smanjenje dimenzionalnosti ne omogućava odabir pouzdanog skupa kandidata za biomarkere.
Zaključci: Unutar ograničenja zadanih složenošću skupa RF predstavlja prikladan alat za izbor kandidata za biomarkere.
Ključne riječi: genska ekspresija; mikropostroj; probiranje biomarkera; slučajne šume; izbor svojstava
 
Pristiglo: 24. srpnja 2006.                                                                                                             Prihvaćeno: 7. rujna 2006.
 
Uvod
 
Trenutni status tehnologije mikropostroja čini mogućom usporednu ekspresijsku analizu desetaka tisuća ljudskih gena s jednog mikropostroja (1). Unatoč tome, u odnosu na rutinske laboratorijske dijagnostičke tehnike koje mogu proizvesti točne i klinički vrijedne rezultate za nekoliko minuta ili sati uz nisku cijenu, ova tehnologija predstavlja vrlo skup, spor i neučinkovit dijagnostički alat. Za pouzdanu dijagnostičku primjenu, osim mikropostroja, reagensa i čitača mikropostroja ona zahtijeva sofisticiranu računalnu podršku i mjerenje najmanje u triplikatu. Ova svojstva čine tehnologiju neprikladnom za rutinski dijagnostički rad.
Ipak se dijagnostička primjena tehnologije mikropostroja namijenjene analizi genske ekspresije može barem razmotriti. Korisnik može primijeniti analizu genske ekspresije u svrhu diferencijacije dvaju usko povezanih kliničkih stanja, odnosno u svrhu postavljanja dijagnoze u iznimno složenim slučajevima. Osim toga, skup genskih profila prikupljen tijekom kliničkog pokusa koji je zasnovan na kontrolnoj i testnoj skupini sudionika može se primijeniti za izbor genskih podskupova relevantnih za identifikaciju i/ili diferencijaciju analiziranoga kliničkog stanja. Kvantitativna analiza RNA ili proteinskih produkata ovih gena u tjelesnim tekućinama ili tkivima je znatno jednostavnija, jeftinija, brža i pouzdanija alternativa u odnosu na mikropostroje. Izbor relevantnih gena i evaluacija kliničke korisnosti određivanja odgovarajućih RNA i proteinskih produkata predstavlja okvir za primjenu mikropostroja u svrhu probiranja novih biomarkera.
Rezultati analize genske ekspresije prikupljeni tijekom dobro organiziranih kliničkih pokusa predstavljaju bogat izvor podataka o ispitivanom kliničkom stanju. U stvari, matrice podataka prikupljene tijekom takvih pokusa su prebogate informacijom. One sadrže stotine tisuća brojčanih podataka koji ih čine presloženima za jednostavnu vizualnu provjeru i analizu. Uz takve postavke izbor nekolicine relevantnih gena iz skupa od više desetaka tisuća gena predstavlja izazovan zadatak za smanjenje dimenzionalnosti. Stoga je potrebna računalna podrška.
Računalne provedbe metoda strojnoga i statističkog učenja poznate pod nazivom filtri mogu se primijeniti u navedene svrhe. U slučaju monogenskih stanja/bolesti konvencionalni statistički alati poput ANOVA-e, t-testa i njihovih neparametarskih pandana mogu se primijeniti sa ili bez modifikacija (1,2). Ti se alati mogu pouzdano primijeniti čak i u slučajevima koje karakterizira nezavisna promjena nekolicine gena. Ipak, u većini situacija analizirana klinička stanja su posljedica visoko međuzavisnih, multigenskih promjena. U takvim uvjetima multivarijatne računalne i statističke metode predstavljaju prikladan alat za izbor relevatnih gena ili postavljanje dijagnoze (3). Ponekad složenost međuovisnosti određenoga kliničkog stanja i odgovarajućih profila genske ekspresije onemogućava smanjenjenjene dimenzionalnosti (4). U nekim slučajevima čak niti uspostavljanje pouzdanoga kvantitativnog, prediktivnog modela zasnovanoga na cjelokupnim profilima genske ekspresije nije moguće. To je osobito slučaj u situaciji kada se rezultati mjerenja genske ekspresije na mikropostroju koriste u svrhu prognoze (5) ili u slučajevima kada je analizirani skup sudionika premalen i heterogen. Ipak, u mnogim situacijama multivarijatni filtri mogu odabrati skup gena koji predstavljaju dobre kandidate za biomarkere za određena klinička stanja.
Nažalost, broj multivarijatnih filtra nije baš velik. Osim na uzajamnoj informaciji zasnovanih pristupa (6,7,8), određeni alati za statističko i strojno učenje/predviđanje mogu se iskoristiti za multivarijatni odabir relevantnih gena, tj. za smanjenje dimenzionalnosti. Računalni hibridi koji uključuju artificijelne genetičke algoritme i neke alate za učenje poput strojeva potpornih vektora (engl. support vector machines) predstavljaju najčće korištene alate za multivarijatni odabir svojstava i postavljanje dijagnoze (9).
Breiman je relativno nedavno razvio jedan drugi multivarijatni filtar/prediktivni alat, poznat pod nazivom slučajna šuma (10,11,12). Ta je metoda ukorijenjena u starijoj metodi poznatoj pod nazivom stabla klasifikacije i regresije (engl. Classification And Regression Tress, CART) (13). U odnosu na CART, RF uvodi randomizaciju (14). Uzorci i geni se randomiziranim postupkom dijele vrlo mnogo puta. Prilikom svake podjele skupa objekata na podskup za učenje i podskup za provjeru znanja razvija se pojedinačno stablo odluke iz slučajno izabranog podskupa gena koje predstavlja najprikladnije rješenje u pogledu točnosti predviđanjakliničkog stanja. Kvaliteta svake pojedine točke grananja (gena) se analizira rerandomizacijom, a dobiveni rezultati u obliku Ginijeve mjere koriste se za rangiranje gena (10,11). Osim toga, ansambl sastavljen od pojedinačnih stabala odluke može se koristiti za postavljanje dijagnoze zasnovane na cjelokupnom profilu genske ekspresije. Detaljan opis RF metodologije može se naći u navedenim publikacijama.
Dok je prediktivna kvaliteta RF-a opsežno evaluirana te je prikladnost navedene metode za prediktivne svrhe dokazana (10,11,12), prva primjena RF-a u svrhu rangiranja gena tek je nedavno objavljena (15). Iz toga se može zaključiti da primjena RF-a u svrhu odabira kandidata za biomarkere još uvijek nije podrobno ispitana. Cilj ove studije je evaluacija prikladnosti RF za izbor biomarkera na osnovi skupova profila genske ekspresije.
 
Materijali i metode
 
Tri dobro opisana skupa profila genske ekspresije preuzeta iz literature izabrani su za analizu odabira relevantnih gena zasnovanog na RF. Poimenično, skupovi “AML/ALL”, “Meduloblastom” i “Karcinom kolona” su izabrani na početku ove studije. Ti su se skupovi uvriježili kao testni skupovi za prediktivne alate, kao i testni skupovi za odabir relevantnih gena (5,16,17 i u njima citirane publikacije). Svi su skupovi prikupljeni tijekom kliničkih pokusa koji su uključivali dvije skupine sudionika s dva, u određenom smislu suprotna klinička stanja. U danim okolnostima postavljanje dijagnoze/prognoze predstavlja dvoklasni prediktivni problem za svaki od izabranih skupova.
Skup “AML/ALL” je sastavljen od 72 profila genske ekspresije koji sadrže 7129 genskih ekspresija bolesnika koji su bolovali od akutne mijeloične (25 uzoraka) ili akutne limfatične leukemije (47 uzoraka) i taj skup predstavlja problem klasifikacije kliničkog stanja. Skup je izabran jer su molekularna osnova razvoja bolesti i rutinska dijagnostička diferencijacija između odabranih bolesti poznati vrlo detaljno (18). Takvo znanje omogućava evaluaciju postupka za odabir relevantnih gena. Preostala dva skupa su izabrani jer predstavljaju različite tipove dijagnostičkih problema i različite stupnjeve prediktivne složenosti. Skup “Karcinom kolona” se sastoji od 62 profila genske ekspresije koji sadrže 2000 genskih ekspresija po bolesniku. Sudionici su ili bolesnici koji boluju od karcinoma kolona (22 uzorka) ili zdravi pojedinci (40 uzoraka). Skup “Meduloblastom” predstavlja najsloženiji slučaj u kojem se traži prognoza bolesti. Taj je skup sastavljen od 60 uzoraka uzetih od bolesnika koji boluju od meduloblastoma i čije se preživljavanje prati kroz određeni period. Skup sadrži 7129 genskih ekspresija po uzorku. Za podroban opis odabranih skupova pogledati članak koji su publicirali Mukherjee i suradnici te publikacije citirane u tom članku (5).
Kroz cijeli odlomak navodi se i složenost uz ostala svojstva skupova, iako je predmet članka smanjenje dimenzionalnosti, a ne predviđanje. Treba naglasiti da ako se ispravan prediktivni model zasnovan na cjelokupnom profilu genskih ekspresija ne može pronaći, tada smanjenje dimenzionalnosti nema smisla. S druge strane, u određenim situacijama kada se razumno smanjenje dimenzionalnosti ne može postići ispravni prediktivni modeli zasnovani na cjelokupnom profilu genskih ekspresija mogu biti korisni. Iz tih su razloga svojstva vezana uz generalizaciju/predviđanje navedena u prethodnom tekstu.
U ovoj je studiji primijenjena provedba RF u statističkom jeziku R 2.2.0. (11,19). Osim broja stabala koji je postavljen na vrijednost 30 000, sve ostale, od korisnika prilagodljive varijable su postavljene na njihove predefinirane vrijednosti tijekom cijele studije. Povećani broj stabala omogućava bolje rangiranje genskih ekspresija bez ugrožavanja generalizacijskih svojstava (10). Svi su proračuni provedeni na osobnom računalu s operativnim sustavom Windows™. Dijagram toka prikazan na slici 1 daje slijed postupaka od elementarnog značenja za ovu studiju:
 
Slika 1. Organizacija studije
 
Na kraju ovog odlomka potrebno je razjasniti neke terminološke razlike. Kroz cijeli tekst koji slijedi izrazi “točnost” i “dijagnostička učinkovitost” se koriste kao sinonimi. Prvi izraz koristi računalna, a drugi biomedicinska zajednica za istu veličinu. U slučajevima kada se koristi izraz “prediktivna točnost” on označava točnost izračunatu na odvojenom, tj. nezavisnom skupu. Prediktivna točnost je stoga parametar validacije matematičkog modela koji opisuje kvalitetu predviđanja umjesto kvalitete opisa koja se kvantificira točnošću izračunatom na istom onom skupu na kojem je provedeno učenje.
 
Rezultati
 
RF-analiza izabranih skupova profila genske ekspresije je provedena prema opisanim eksperimentalnim postavkama. 30 najviše rangiranih gena dobivenih za skup AML/ALL navedeno je u Tablici 1.
 
Tablica 1. 30 najviše rangiranih gena dobivenih primjenom RF na skup “AML/ALL”.
 
Nasuprot genetičkim algoritmima ili nekim filtrima zasnovanim na uzajamnoj informaciji koji daju podskupove relevantnih gena s ograničenim brojem članova, genski odabir zasnovan na RF rangira sve gene polazišnog skupa. Ipak, samo najviše rangirani geni predstavljaju one gene čija ekspresija čini najznačajniju razliku između analiziranih kliničkih stanja. U studiji AML/ALL izabrano je 30 najviše rangiranih gena. Ovaj broj predstavlja manje od 0,5% broja gena polazišnog skupa, što je značajno smanjenje dimenzionalnosti.
Među ostalim genima prikazanima u Tablici 1 mogu se naći CD33, TdT i mijeloperoksidaza. Proteinski produkti ovih gena su dobro poznati imunokemijski ili citokemijski biomarkeri za diferencijaciju AML/ALL (18). Osim prethodno navedenih citokemijskih biomarkera specifična i nespecifična esteraza se rutinski koriste za diferencijaciju akutnih mijeloičnih i limfatičnih leukemija. Nažalost, polazišni skup gena ne sadrži gene koji odgovaraju ovim enzimima. Među serumskim enzimima lizozim se često koristi za diferencijaciju AML/ALL (21). Odgovarajući gen je od strane RF rangiran na 250. poziciju. Osim CD33, CD10 i CD13 se ponekad koriste za imunokemijsku diferencijaciju AML i ALL. Odgovarajući geni su rangirani na 542. i 392. poziciju. Geni koji kodiraju lizozim, CD10 i CD13 su postavljeni među 10% najviše rangiranih gena. Kako tijekom izbora relevantnih gena zasnovanog na RF iz AML/ALL skupa nije bilo uplitanja ili manipulacije, može se reći da odabrani filtar prepoznaje najznačajnije detalje koji razlikuju AML i ALL, tj. primjena odabranog filtra je uz navedene eksperimentalne postavke prikladna za odabranu namjenu.
Osim poznatih biomarkera generiran je i velik broj novih kandidata. Među ostalima je izabran i cistatin C. Ovaj biomarker za diferencijaciju AML/ALL je nedavno prepoznat i od strane drugih autora (22). Razvijena kvantitativna metoda PCR za određivanje cistatina C je dala ohrabrujuće rezultate u odnosu na diferencijaciju odabranih tipova leukemije. Ovi rezultati donose daljnju potvrdu prikladnosti primjene RF za probiranje biomarkera na osnovi danog skupa mikropostroja. Ipak, ovi preliminarni rezultati nove dijagnostičke indikacije za mjerenje genske ekspresije cistatina C zahtijevaju daljnju evaluaciju. Od osobitog bi značenja bilo ispitivanje prikladnosti određivanja serumske koncentracije cistatina C u svrhu razlikovanja AML i ALL.
Konačno, većina gena nabrojenih u Tablici 1 su također prepoznati od strane drugih autora (7,8,23) i većina njih je koristila univarijatne filtre. Ova činjenica ukazuje da se problem razlikovanja AML/ALL može svesti na univarijatni ili linearno razdvojivi problem (Slike 2a i 2b).
 
Slika 2. Razdvajanje uzoraka iz skupaAML/ALLu prostoru razapetom s ekspresijama CD33 iglutationS-transferaze (a) iliglutationS-transferaze iTdT (b). Uzorci AML su predstavljeni tamnijim točkama, dok su uzorciALLpredstavljenisvjetlijimtočkama. Koordinate - genske ekspresije su podijeljene na ljestvici. Najveće mjerene genske ekspresije su postavljene na 100%. CD33, glutation S-transferaza i TdT su preuzete iz liste najviše rangiranih gena (Tablica 1).
 
Prije svega, Slike 2a i 2b jasno prikazuju prikladnost odabranih dvodimenzionalnih klasifikatora leukemija. Slika 2a predstavlja slučaj u kojem se uzorci mogu linearno odvojiti. Čak se može postaviti i univarijatna klasifikacija AML i ALL na osnovi pojedinačne koordinate uz razumnu točnost (96%). Slika 2b je još dojmljivija. Bilo koja koordinata (TdT, glutation S-transferaza) se uz visoku pouzdanost može iskoristiti kao univarijatni klasifikator AML i ALL (točnost za univarijatnu, na glutation S-transferazi zasnovanu klasifikaciju iznosi 94%). Ovi pronalasci daju daljnju potvrdu prikladnosti izbora gena zasnovanog na RF za problem diferencijacije AML i ALL. Štoviše, takvi univarijatni klasifikatori su gotovo savršeni kandidati za rutinsku dijagnostičku diferencijaciju AML i ALL jer omogućavaju diferencijaciju zasnovanu na pojedinačnom kvantitativnom mjerenju s PCR. Ipak, ove slike naznačuju da se problem smanjenja dimenzionalnosti skupa AML/ALL može jednostavno riješiti univarijatnim filtrima.
Na ovom mjestu treba istaknuti da su tijekom validacije prediktivnih modela za klasifikaciju AML/ALL zasnovanu na cjelokupnom profilu genskih ekspresija mnogi autori postigli gotovo savršene rezultate. U svim značajnim slučajevima prediktivna je točnost bila 90% ili više. Ova činjenica ukazuje da bi se prikladnost bilo kojeg filtra, uključujući i multivarijatni filtar zasnovan na RF, trebala evaluirati na zahtjevnijim klasifikacijskim problemima. Skupovi karcinom kolona (Slika 3) i meduloblastom (Slika 4) predstavljaju takve probleme (5).
 
Slika 3. SkupKarcinomkolona”. Tamnije točke predstavljaju bolesnike koji boluju od karcinoma kolona, a svjetlije točke predstavljaju zdrave pojedince. Obje koordinate (ekspresije monocitnog proteina koji aktivira neutrofile i dezminskog gena) su podijeljene na na interval 0 - 100%. Linije graničnih vrijednosti postavljene su na 3 i 45%.
 
Slika 4. Skup “Meduloblastom”. Tamnije točke predstavljaju bolesnike koji su umrli tijekom perioda praćenja, a svjetlije točke predstavljaju one bolesnike koji su preživjeli. Obje koordinate (ekspresija gena neuralne adhezijske molekule i supresora 2 G-proteinskog puta) su podijeljene na interval 0 - 100%.
 
Već je na prvi pogled očigledno da visokokvalitetno razdvajanje analiziranih klasa u prostorima razapetim primjenom dvaju najviše rangiranih gena nije lako postići, osobito u slučaju prognoze meduloblastoma. Ovo je u suglasju s rezultatima koje je objavio Mukherjee sa suradnicima (5).
Slika 3 predstavlja tipično multivarijatno rješenje za dani dijagnostički problem. Pažljivim izborom graničnih vrijednosti na obje koordinate bolesnici s karcinomom kolona mogu se razlikovati od zdravih pojedinaca uz prihvatljivu točnost (92%). Ovaj rezultat podrazumijeva da su najmanje dva najviše rangirana gena potrebna za rutinsku dijagnostičku primjenu. U svrhu poboljšanja dijagnostičke učinkovitosti mogla bi se razmotriti primjena tri ili više visoko rangiranih genskih ekspresija. Ipak, povećanjem broja mjerenja genskih ekspresija potrebnih za postavljanje dijagnoze ovaj pristup postaje neprikladan za rutinsku dijagnostičku primjenu.
Konačno, Slika 4 prikazuje da korisno smanjenje dimenzionalnosti ne može biti provedeno u svim slučajevima. Praktično je nemoguće razlikovati bolesnike koji su preživjeli tijekom terapije meduloblastoma od bolesnika koji su umrli (Slika 4). To podrazumijeva da je uključivanje tri ili više genskih ekspresija i/ili uspostavljanje nelinearnih veza između genske ekspresije i preživljavanja potrebno za točno postavljanje dijagnoze. Taj problem ukazuje da rangiranje gena zasnovano na RF u svrhu izbora biomarkera preživljanja tijekom terapije meduloblastoma nije prikladan korak. U danim eksperimentalnim uvjetima, koji uključuju malu skupinu heterogenih bolesnika/tretmana, jedini je pristup primjena tehnologije mikropostroja uz adekvatni prediktivni alat poput RF. Ova činjenica predstavlja prednost alata poput RF koji se mogu koristiti kao multivarijatni filtar, a u isto vrijeme su prediktivni alati koji se mogu koristiti za postavljanje dijagnoze/prognoze na temelju cjelokupnog profila genske ekspresije. Ovim je alatima svojstveno još nešto: validacija modela. Povećavanjem složenosti odnosa profila genske ekspresije i biološke varijable koju ispitujemo korisnost odabranih biomarkera opada. Stoga adekvatna validacija modela, koja predstavlja neizravnu mjeru složenosti analiziranog problema, daje uvid u korisnost smanjenja dimenzionalnosti. U skladu s ovom činjenicom, prihvatljivi rezultati validacije modela zasnovanog na cjelokupnom profilu genske ekspresije koji je dobiven primjenom RF-a ili sličnog alata tvore osnovu za daljnje smanjenje dimenzionalnosti i probiranje biomarkera. U većini slučajeva to je dostižan cilj. Ipak, ukoliko korisno smanjenje dimenzionalnosti nije moguće, validirani model dobiven primjenom RF zasnovan na cjelokupnom profilu genske ekspresije preostaje kao alternativa.
 
Zaključci
 
Prije bilo kakvog pokušaja izbora kandidata za biomarkere iz cjelokupnog profila genske ekspresije, prikladnost prediktora, u ovom slučaju modela dobivenog primjenom RF, i/ili stupanj složenosti odnosa između profila genske ekspresije i dijagnoze/prognoze treba biti poznat. Ako je moguće pronaći pouzdan model zasnovan na cjelokupnom profilu genske ekspresije može se pristupiti izboru kandidata za biomarkere.
U slučaju jednostavnih problema RF se pokazao kao koristan filtar. Na osnovi ovog pristupa identificirani su dobro poznati univarijatni klasifikatori dvaju tipova leukemije. Štoviše, otkrivene su mnoge nove i obećavajuće alternative. U nešto složenijem slučaju identifikacije karcinoma kolona pojavio se dvodimenzionalni klasifikator zasnovan na genskoj ekspresiji dva najviše rangirana gena dobivena primjenom RF. Predloženi klasifikator i pripadajuće granične vrijednosti pokazali su obećavajuće klasifikacijske mogućnosti. Konačno, primjena RF u najsloženijem slučaju prognoze tijeka liječenja meduloblastoma nije dala korisne kandidate za biomarkere. Zbog izrazito složenog odnosa profila genske ekspresije i prognoze (5) i malog, heterogenog skupa razumno smanjenje dimenzionalnosti primjenom RF nije moguća.
Cjelokupne rang-liste gena iz ove studije su dostupne na zahtjev. Pokazano je da su neki novi biomarkeri, poput ekspresije cistatina C primijenjene za klasifikaciju AML/ALL, ušli u proces dijagnostičke evaluacije. Ipak, enzim-imunotestovi, imunonefelometrija, imunoturbidimetrija i protočna citometrija, nasuprot kvantitativnom PCR-u su prisutni u većini rutinskih kliničkih laboratorija. Bilo bi zanimljivo provjeriti mogu li neki od proteinskih produkata relevantnih gena biti korisni biomarkeri ispitivanih kliničkih stanja.
 
Zahvale
 
Autor se želi zahvaliti Ana-Mariji Šimundić na kritičnom osvrtu i korisnim savjetima.
 
Literatura
 
1.     Brazma A, Vilo J. Gene Expression Data Analysis. FEBS Lett 2000; 480:17-24.
2.     Dudoit S, Fridlyand J, Speed T. Comparison of Discrimination Methods for the Classification of Tumors Using Gene Expression Data. J Am Stat Assoc 2002;97:77-87.
3.     Guyon I, Weston J, Barnhill S, Vapnik V. Gene Selection for Cancer Classification Using Support Vector Machines. Mach Learn 2002;46(1-3):389-422.
4.     Guyon I, Elisseef A. An Introduction to Variable and Feature Selection. J Mach Learn Res 2003;3:1157-82.
5.     Mukherjee S, Tamayo P, Rogers S, Rifkin R, Engle A, Campbell C, Golub TR, Mesirov JP. Estimating Dataset Size Requirements for Classifying DNA Microarray Data. J Comput Biol 2003;10(2):119-42.
6.     Kohavi R, John GH. Wrappers for Feature Selection. Artif Intell 1997;97(1-2):273-324.
7.     Bogunović N, Marohnić V, Debeljak Ž. Efficient Gene Expression Analysis by Linking Multiple Data Mining Algorithms. In Proceedings of the 27th Annual International Conference of the IEEE-EMBS; 2005.
8.     Su Y, Murali TM, Pavlovic V, Schaffer M, Kasif S. RankGene: Identification of Diagnostic Genes Based on Expression Data. Bioinformatics 2003;19(12)1578–9.
9.     Peng S, Xu Q, Ling XB, Peng X, Du W, Chen L, Molecular Classification of Cancer Types from Microarray Data Using the Combination of Genetic Algorithms and Support Vector Machines. FEBS Lett 2003;555:358-62.
10.   Breiman L. Random Forests. Mach Learn 2001;45:5-32.
11.   Svetnik V, Liaw A, Tong C, Culberson JC, Sheridan RP, Feuston BP. Random Forest: A Classification and Regression Tool for Compound Classification and QSAR Modeling. J Chem Inf Comput Sci 2003;43:1947-58.
12.   Zhang H, Yu CY, Singer B. Cell and tumor classification using gene expression data: Construction of forests. Proc Natl Acad Sci USA 2003;100(7):4168-72.
13.   Breiman L, Friedman J, Olshen R, Stone C Classification and Regression Trees. Belmont, USA: Wadswarth; 1984.
14.   Lunneborg CE. Data Analysis by Resampling: Concepts and Applications. Pacific Grove, USA: Duxbury; 2000.
15.   Díaz-Uriarte R, Alvarez de Andrés S. Gene Selection and Classification of Microarray Data Using Random Forest. BMC Bioinformatics 2006;7:3-16.
16.   Wang Y, Tetko IV, Hall MA, Frank E, Facius A, Mayer KFX, Mewes HW, Gene Selection from Microarray Data for Cancer Classification – a Machine Learning Approach. Comput Biol Chem 2005;29:37-46.
17.   Lee JW, Lee JB, Park M, Song SH. An Extensive Comparison of Recent Classification Tools Applied To Microarray Data. Comput Stat Data Anal 2005;48:869-85.
18.   McKenzie SB. Clinical Laboratory Hematology. Upper Saddle River, USA: Pearson Education, Inc.; 2004.
19.   R Development Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2005.
20.   http://www.ncbi.nlm.nih.gov/ accessed July 17th 2006.
21.   Thomas, L. Clinical Laboratory Diagnostics. Frankfurt, Germany: TH-Books; 1998.
22.   Sakhinia E, Faranghpour M, Yin JAL, Brady G, Hoyland JA, Byers RJ. Routine Expression Profiling of Microarray Gene Signatures in Acute Leukaemia by Real-time PCR of Human Bone Marrow. Br J Haematol 2005;130(2):1365-2141.
23.   Ben-Dor A, Bruhn L, Friedman N, Nachman I, Schummer M, Yakhini Z, Tissue Classification with Gene Expression Profiles. J Comput Biol 2000;7(3-4):559-83.
 
 
Rječnik računalnih izraza korištenih u ovoj studiji

 

Izraz
 
Značenje
 
“Nezavisna”
varijabla/svojstvo
 
U ovom kontekstu - gen
 
“Zavisna” varijabla
 
U ovom kontekstu – kliničko stanje
 
Objekt
 
U ovom kontekstu – profil genske
ekspresije pojedinog uzorka
 
Strojno i statističko učenje
 
Skupina računalnih tehnika razvijenih u svrhu rješavanja općih klasifikacijskih i regresijskih problema
 
Smanjenje
dimenzionalnosti
 
Smanjenje broja varijabli potrebnih za učenje (smanjenje broja gena potrebnih za postavljanje dijagnoze/prognoze)
 
Stabla klasifikacije i regresije (engl. classification and regression trees, CART)
 
Jedna od tehnika strojnog učenja zasnovana na generiranju specifičnog tipa stabala odluke
 
Univarijatni
klasifikatori
 
Pristup klasifikaciji objekata, zasnovan na pojedinačnim varijablama (postavljanje dijagnoze/prognoze zasnovano na ekspresiji samo jednog gena)
 
Filteri
 
Metode strojnoga i statističkog učenja razvijene u svrhu odabira relevantnih varijabli
 
Multivarijatni
odabir svojstava
 
Izbor većeg broja relevantnih varijabli koji pridaje značenje i njihovoj međuzavisnosti
 
Uzajamna
informacija
 
Veličina izvedena iz teorije informacije koja se može koristiti kao kriterij filtriranja
 
Genetički
algoritam
 
Računalni pristup odabiru svojstava (u ovom kontekstu) zasnovan na oponašanju procesa prirodnog odabira i mutacije
 
Prediktivni alat
 
Alat za strojno ili statističko učenje koji omogućava predviđanje vrijednosti zavisne varijable zasnovan na uspostavaljanju kvantitativne veze između zavisne i nezavisnih varijabli
 
RF
 
Tehnika strojnog učenja koja kao građevni blok koristi stabla klasifikacije i regresije i koja se može primjeniti kao filtar, ali i kao prediktivni alat
 
Strojevi potpornih vektora
(engl. support vector machines)
 
Jedan od prediktivnih alata
 
Prediktivna točnost
 
Udio točnih predviđanja klase na skupu koji nije korišten tijekom učenja
 
Opisna točnost
 
Udio točnih predviđanja klase na skupu koji je korišten tijekom učenja
 
Ispravan model
 
Prediktivni model čija je prediktivna točnost evaluirana i dokazano prihvatljiva