Back to Search Start Over

Enhancer Prediction Based on Epigenomic Data

Authors :
Ramisch, Anna
Publication Year :
2019
Publisher :
Freie Universität Berlin, 2019.

Abstract

In this thesis, we show how to exploit the current knowledge of enhancers, and integrate different types of epigenomic data to make condition-specific predictions on the location of active enhancers. First, we introduce a novel method for genome-wide enhancer prediction which is solely based on histone modification data. Our method is a combination of two random forest classifiers, where one classifier learns the difference between active and inactive genomic regions and the other concentrates on the more difficult task to distinguish active enhancers from active promoters. We model and optimize the corresponding features taking into account the local chromatin structure. For an active enhancer, this is in essence an accessible region flanked by nucleosomes with specific histone modifications. To avoid circular reasoning, our training enhancers are defined by feature set-independent characteristics: accessibility and bidirectional transcription. We thoroughly validate our method on mouse embryonic stem cell data and achieve very good performances on a constructed test set as well as on a validated set of enhancers. Moreover, our genome-wide enhancer predictions have a high spatial resolution. We also cluster proximal enhancers and show that the resulting regions of high enhancer density are in good agreement with a published list of super-enhancers in mouse embryonic stem cells. In contrast to many other methods, we offer a pre-trained classifier with integrated data normalization that can be used to reliably predict enhancers across different cell types and species. This classifier is superior to the prominent unsupervised method ChromHMM, and shows similar results as the recent supervised REPTILE approach when applied in the same cell type. In terms of transferability to other conditions, our method outperforms REPTILE. Finally, we demonstrate how our pre-trained classifier can be embedded into a comprehensive framework to predict condition-specific regulatory units (pairs of enhancers and putative target genes) of histone modification and gene expression data.<br />In dieser Doktorarbeit zeigen wir, wie man die aktuellen Enhancer-Kentnisse nutzen und verschiedene epigenetische Datensätze integrieren kann um die Postition aktiver Enhancer unter spezifischen Bedingungen vorherzusagen. Zuerst stellen wir eine neue Methode zur genomweiten Enhancer-Vorhersage basierend auf Histonmodifikationsdaten vor. Unsere Methode kombiniert zwei Random Forest Klassifikationsverfahren zur Unterscheidung von aktiven und inaktiven genomischen Regionen und zur schwierigeren Unterscheidung von aktiven Enhancern und aktiven Promotoren. Beim Modellieren und Optimieren der Klassifikationsmerkmale (Feature) berücksichtigen wir die lokale Chromatinstruktur. Kennzeichnend für einen aktiven Enhancer ist imWesentlichen ein Abschnitt zugänglichen Chromatins, umgeben von Nukleosomen mit spezifischen Histonmodifikationen. Unsere Trainings-Enhancer sind so definiert, dass sie offene Chromatinregionen umfassen und nachweislich bidirektionale Transkripte herstellen. Diese Enhancer-Charakteristiken haben wir möglichst unabhängig von den Klassifikationsmerkmalen gewählt um Zirkelschlüsse zu vermeiden. Wir haben unsere Methode in embryonalen Stammzellen der Maus validiert und sehr gute Vorhersagergebnisse auf ausgewählten Testsets erzielt. Außerdem haben wir vorhergesagte, beieinanderliegende Enhancer in Regionen hoher Enhancer-Dichte zusammengefasst, für die wir eine gute Übereinstimmung mit veröffentlichten Superenhancern feststellen konnten. Im Gegensatz zu vielen Methoden zur Enhancer-Vorhersage bieten wir ein trainiertes Modell mit integriereter Datennormalisierung an, dass zuverlässig auf neue Datensätze anderer Zelltypen und Spezies angewendet werden kann. Unser Modell zeigt bessere Ergenisse als die viel genutzte Methode ChromHMM, und ist bei Anwendung innerhalb eines Zelltyps vergleichbar mit der REPTILE-Methode. Für die Anwendung auf neue Datensätze ist unsere Methode besser geeignet. Schließlich zeigen wir, wie unser trainiertes Modell als Basis eines Frameworks fungieren kann um bedingungsspezifische regulatorische Einheiten (Enhancer-Gen-Paare) von Histonmodifikations- und Genexpressionsdaten vorherzusagen.

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.doi.dedup.....a3585606d909bbfc6a088b46061d5c2e