101. Yüksek ölçekli genomik verinin çok yönlü analizi
- Author
-
Dede, Duygu, Oğul, Hasan, and Bilgisayar Mühendisliği Anabilim Dalı
- Subjects
Computer Engineering and Computer Science and Control ,Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol - Abstract
Gelişen mikroçip teknolojileri sayesinde gen ifade (gene expression) verilerinin ölçümleri yapılarak yüksek ölçekli (high throughput) veriler elde edilebilmekte ve bu veriler çok boyutlu matrislerde saklanabilmektedir. Yüksek ölçekli verinin analizi, gerek işlemsel karmaşıklık yönüyle, gerekse anlamlı bilgi çıkarımındaki zorluklar nedeniyle üzerinde çalışılması gereken önemli bir konudur. Son yıllarda özellikle yaşam bilimleri alanında bu tür veri üretiminin fazla olması ve genellikle bu verilerin analizlerinin gözle veya standart yöntemlerle yapılamaması nedeniyle, problem daha kritik bir hale gelmiştir. Bu tür veriler, yapılan deneyler ve kullanılan düzenekler gereği, çok yönlü ve/veya çok kaynaklı bir yapıya sahip olabilmektedir. Bu çalışmada belirtilen motivasyondan yola çıkılarak, akıllı veri analizi yeterliliklerini artıracak bir yöntemin geliştirilmesi hedeflenmiş ve bir yazılım aracının gerçekleştirimi yapılmıştır. Geliştirilen uygulamada iki veya daha fazla organizmadan (örneğin; insan, fare ve maymun) alınan, aynı koşullarda elde edilmiş mRNA (mesajcı RNA) ifade verileriyle türler arası (çok kaynaklı) bir analiz hedeflenmiştir. Bunun için yeni bir üç-yönlü kümeleme yöntemi (TriClustering) geliştirilmiş ve bu yöntem geliştirilen yazılım aracı ile NCBI'S GEO veri merkezinden alınan üç farklı veri kümesine uygulanmıştır. Gen ontoloji (GO) terimi zenginleşme analizi ve Dunn indeks (DI) metriği kullanılarak sonuçların biyolojik ve istatiksel değerlendirilmesi yapılmıştır. Deneysel sonuçlara göre TriClustering yöntemi anlamlı üçlü kümeler (tricluster) bulabilen, türler arası analiz için kullanışlı bir araçtır. High throughput data can be generated by developing techniques and represented in large matrices. Analysis of such data has become one of the major tool but it has brought along many challenges for biological data mining such as process complexities and difficulties in information retrieval. In recent years these challenges have become critic since huge amount of data is produced especially in life sciences and standard techniques may not be used in analysing of such data. This kind of data structure may be multi-way and/or multi-source by used test and devices. In this study based on the specified motivation, a novel method and software tool are developed to increase proficency of data analysis techniques. The developed method aims to make cross species (multi sources) analysis using mRNA expression values obtained from different organisms (human, mouse, monkey etc.) under same conditions. To achieve this goal a novel three way clustering method named TriClustering is introduced and the method has been applied to three different gene expression data obtained from NCBI?s GEO data collection. Biological and statistical significance of the results are evaluated using Gene Ontology (GO) term enrichment analysis and Dunn index (DI) metric, respectively. The experimental results indicate that TriClustering on multi-organism data can be resulted with better gene clusters in comparison to biclustering on single-organism data. The method also promote a useful tool for cross species gene regulation analysis. 88
- Published
- 2013