Back to Search Start Over

Construction of a global map of human gene expression : the process, tools and analysis

Authors :
Lukk, Margus
University of Helsinki, Faculty of Science, Department of Computer Science
Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos
Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap
Vihinen, Mauno
Ukkonen, Esko
Publication Year :
2010
Publisher :
Helsingin yliopisto, 2010.

Abstract

This thesis studies human gene expression space using high throughput gene expression data from DNA microarrays. In molecular biology, high throughput techniques allow numerical measurements of expression of tens of thousands of genes simultaneously. In a single study, this data is traditionally obtained from a limited number of sample types with a small number of replicates. For organism-wide analysis, this data has been largely unavailable and the global structure of human transcriptome has remained unknown. This thesis introduces a human transcriptome map of different biological entities and analysis of its general structure. The map is constructed from gene expression data from the two largest public microarray data repositories, GEO and ArrayExpress. The creation of this map contributed to the development of ArrayExpress by identifying and retrofitting the previously unusable and missing data and by improving the access to its data. It also contributed to creation of several new tools for microarray data manipulation and establishment of data exchange between GEO and ArrayExpress. The data integration for the global map required creation of a new large ontology of human cell types, disease states, organism parts and cell lines. The ontology was used in a new text mining and decision tree based method for automatic conversion of human readable free text microarray data annotations into categorised format. The data comparability and minimisation of the systematic measurement errors that are characteristic to each lab- oratory in this large cross-laboratories integrated dataset, was ensured by computation of a range of microarray data quality metrics and exclusion of incomparable data. The structure of a global map of human gene expression was then explored by principal component analysis and hierarchical clustering using heuristics and help from another purpose built sample ontology. A preface and motivation to the construction and analysis of a global map of human gene expression is given by analysis of two microarray datasets of human malignant melanoma. The analysis of these sets incorporate indirect comparison of statistical methods for finding differentially expressed genes and point to the need to study gene expression on a global level. Kaikki monisoluisen organismin solut sisältävät saman geenivalikoiman. Solujen ulkonako ja toiminta määräytyvät sen mukaan, mitkä geeniyhdistelmät ovat aktiivisia. Solun geenien ilmentymistä voidaan mitata korkeasaantoisilla molekyylibiologian menetelmillä kuten DNA-siruilla. Tyypillisessä DNA-sirukokeessa mitataan geenien aktiivisuutta pienessä määrässä erilaisia solu- tai kudostyyppejä. Geenien ilmentymisen tutkiminen käyttäen suurempia näytemääriä ei usein ole mahdollista ja tieto aktiivisuuseroista organismitasolla on tuntematta. Tämä väitöskirja esittelee ihmisen geeniaktiviteetin tutkimukseen käytettävää karttaa sadoista solu- ja kudostyypeistä ja tarkastelee sen rakennetta. Tarkasteltava tieto on kerätty yli 200 erillisestä tutkimuksesta ja sisältää informaatiota geenien ilmentymisestä normaaleissa ja sairaissa solu- ja kudostyypeissä, jotka ovat peräisin yli 160 laboratoriosta. Kartta on luotu yhdistämällä tietoa kahdesta maailman suurimmasta DNA-sirutietokannasta (GEO ja ArrayExpress). Tämän kartan luominen auttoi osaltaan ArrayExpressin kehittämisessä parantamalla tiedon saatavuutta tutkijoille ja korjaamalla tiedossa olevia virheitä. Se oli myös mukana kehittämässä laskennallisia välineitä DNA-sirudatan manipulointiin ja GEOn ja ArrayExpressin välisen tiedon vaihdon luomisessa. Suurten tietomäärien käsittely ja analysointi on mahdollista vain, jos tieto on järjestetty systemaattisesti. Geenien ilmentymiskarttaan liitettyjen biologisten näytteiden kuvaukset systematisoitiin korvaamalla alkuperäiset näytekuvaukset muutamalla hyvin informatiivisella avainsanalla. Nämä avainsanat järjestettiin edelleen hierarkkisesti. Tätä hierarkiaa käytettiin sitten näytteiden automaattiseen ryhmittelyyn tiedon visualisoinnissa ja analysoinnissa. On tiedossa, että biologisen näytteen geenien ilmentymisessä havaittavat erot ovat suuremmat, jos mittaukset suoritetaan kahdessa eri laboratoriossa kuin jos mittaus toistetaan samassa laboratoriossa. Koska kattavan geenien ilmentymiskartan luomiseen käytetty tieto tuli monesta laboratoriosta, oli tärkeää varmistaa, että tämä niin sanottu laboratorioefekti ei vinouttasi analyysituloksia. Tästä syystä kaikki kartan luomiseen käytetty tieto tarkastettiin huolellisesti laadun ja vertailukelpoisuuden suhteen. Alkuperäinen kannuste kattavan ihmisen geenien ilmentymiskartan perustamiseen tuli kahden pahanlaatuisen ihosyöpänäytteen analysoinnista. Ihosyöpätutkimuksen tavoitteena oli tunnistaa geenejä, joiden aktiivisuus olisi kytköksissä pahanlaatuiseen solutyyppiin. Naiden geenien etsintä toi esille pienten solu- ja kudosmäärien käytön rajoitukset ja tarpeen geenien ilmentymisen kokonaisvaltaisempaan tutkimukseen.

Subjects

Subjects :
bioinformatiikka

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.od......1593..63944aba3879a1b0c4926c74b2fcfd19