1. Σχεδιασμός & ανάπτυξη μιας μετα-βάσης δεδομένων για το δίκτυο πρωτεϊνικών αλληλεπιδράσεων στον άνθρωπο
- Author
-
Μοσχονάς, Νικόλαος, Gioutlakis, Aris, Κλάπα, Μαρία, and Τσακαλίδης, Αθανάσιος
- Subjects
Βιοπληροφορική ,Δίκτυα πρωτεϊνικών αλληλεπιδράσεων ,Bioinformatics ,Βιολογικές βάσεις δεδομένων ,025.065 726 44 ,Protein interaction networks ,Systems biology ,Biological databases ,Συστημική βιολογία - Abstract
Η αποσαφήνιση της σχέσης του γονοτύπου με το φαινότυπο ενός οργανισμού είναι μια από τις μεγαλύτερες προκλήσεις των επιστημών ζωής σήμερα. Για την επίτευξη του στόχου αυτού, η κατανόηση της δομής και της ρύθμισης του δικτύου πρωτεϊνικών αλληλεπιδράσεων (ΔΠΑ) είναι ένα από τα καθοριστικά στάδια αυτής της συσχέτισης. Πρώτο βήμα προς την κατεύθυνση αυτή αποτελεί η λεπτομερής και ακριβής ανακατασκευή του ΔΠΑ. Πειραματικά αποτελέσματα που υποστηρίζουν πρωτεϊνικές αλληλεπιδράσεις δημοσιεύονται στη βιβλιογραφία, από όπου η γνώση αυτή εξορύσσεται είτε μέσω άμεσης καταγραφής από ερευνητές είτε μέσω υπολογιστικών αλγορίθμων ανάλυσης κειμένου, και αποθηκεύεται σε πρωτογενείς βάσεις δεδομένων πρωτεϊνικών αλληλεπιδράσεων (ΒΔΠΑ). Για το ΔΠΑ στον άνθρωπο, υπάρχουν αρκετές ΒΔΠΑ, οι οποίες λόγω διαφορετικών στόχων, τρόπων εξόρυξης γνώσης από τη βιβλιογραφία και διαφορετικής διαχείρισης της βάσης, παρουσιάζουν μικρή επικάλυψη, περιγράφουν τα δεδομένα τους με ασύμβατο μεταξύ τους τρόπο και ορολογία, και ορίζουν τις πρωτεϊνικές αλληλεπιδράσεις μέσω διαφορετικών επιπέδων αναφοράς της γονιδιακής πληροφορίας. Για την ενοποίηση δεδομένων πρωτεϊνικών αλληλεπιδράσεων από διάφορες πρωτογενείς βάσεις έχουν αναπτυχθεί μετα-βάσεις, οι οποίες προσπαθούν να ξεπεράσουν τα προβλήματα που προκύπτουν από την ετερογένεια των ΒΔΠΑ. Και στην περίπτωση των μεταβάσεων, όμως, ανακύπτουν προβλήματα, που αφορούν: α) στο ότι το δίκτυο ορίζεται με βάση τις πρωτεϊνικές αλληλεπιδράσεις και όχι τις πρωτεΐνες-κόμβους του ΔΠΑ, β) στον πλεονασμό κωδικών ταυτοποίησης των πρωτεϊνών στα διάφορα επίπεδα αναφοράς της γονιδιακής πληροφορίας, γ) στην ετερογένεια του τρόπου κανονικοποίησης των κωδικών ταυτοποίησης πρωτεϊνών, δ) στην υστέρηση της ανανέωσής τους σε σχέση με τις πρωτογενείς βάσεις και ε) στην επιλογή των δεδομένων που καταγράφονται από τις ΒΔΠΑ. Ο σκοπός αυτής της εργασίας είναι ο σχεδιασμός και η ανάπτυξη μιας μετα-βάσης δεδομένων για το δίκτυο πρωτεϊνικών αλληλεπιδράσεων στον άνθρωπο, PICKLE, που να προσφέρει επαρκείς λύσεις στα προβλήματα αυτά. Η μεγάλη διαφορά σε σχέση με τις υπάρχουσες μετα-βάσεις είναι ο ορισμός του ΔΠΑ με βάση το αξιολογημένο πλήρες ανθρώπινο πρωτεϊνωμα (Reviewed complete Human Proteome), όπως αυτό ορίζεται από τη βάση δεδομένων γνώσης πρωτεϊνικής πληροφορίας UniProt ΚΒ. Για τις πρωτεΐνες αυτές αναζητήθηκε η σχετική πληροφορία αλληλεπιδράσεων στις πέντε κύριες δημόσιες βάσεις πρωτεϊνικών αλληλεπιδράσεων στον άνθρωπο, DIP, HPRD, IntAct, MINT και BioGRID. Τα προβλήματα του πλεονασμού και της κανονικοποίησης λύθηκαν μέσω της ανάπτυξης μίας κατάλληλης γονιδιακής οντολογίας, η οποία μας επέτρεψε να συνδέσουμε το πλήρες ανθρώπινο πρωτεϊνωμα με τα υπόλοιπα επίπεδα αναφοράς της γενετικής πληροφορίας, δρώντας παράλληλα ως ένας ευέλικτος και ακριβής μηχανισμός κανονικοποίησης. Για τη γρήγορη ανανέωση των δεδομένων της μετα-βάσης, αναπτύχθηκε μια αυτοματοποιημένη διαδικασία σύνδεσης και ενημέρωσής της από τις PPIDBs. Η πρώτη έκδοση της PICKLE κατέγραψε 83720 αλληλεπιδράσεις για 12418 UNIPROT IDs από το σύνολο των 20225 του πλήρους ανθρώπινου πρωτεϊνωματος, που υποστηρίζονται από 27.590 δημοσιεύσεις. Η PICKLE θα εμπλουτιστεί με ένα φιλικό προς το χρήστη γραφικό περιβάλλον και θα συνδεθεί με εργαλεία ανάλυσης δικτύων και ομικών δεδομένων, για να αποτελέσει πολύτιμο εργαλείο σε βιοϊατρικές μελέτες και εφαρμογές. The elucidation of the underlying relationship between an organism’s genotype and its expressed phenotype is currently one the greatest challenges faced by life sciences and biology in general. In order to achieve that, the better understanding of the inner structure and regulation mechanisms of the protein-protein interaction (PPI) networks is of great importance. The first step towards that goal is the detailed and accurate reconstruction of the PPI network itself. The scientific literature is constantly being updated with new experimental results supporting PPI evidence, which in turn are fed into primary PPI databases (PPIDB) by the use of either curators or text mining algorithms. Currently there is a large number of PPIDB referring to the human PPIs. Since many of them have different goals, literature curation methods, and database administration strategies, it is not surprising that they also exhibit a limited PPI overlap and incompatible terminology for PPI intera\-ctors, i.e. use of arbitrary levels of genetic organization. A number of meta-databases have been developed in order to achieve integrated overviews of PPI networks while circumventing the problems inherent in the field of primary PPI databases. Unfortunately, meta-databases have a number of issues of their own, such as: a) top-down network definition based on protein interactions instead of interactors, b) protein identifier redundancy in all levels of reference, c) the use of {\it ad hoc} normalization methods, d) infrequent updating and d) insufficient information stored. The major goal of this thesis is the design and implementation of PICKLE (Protein Interaction Knowledge Base), a meta-database for the human PPI network created specifically to tackle the aforementioned problems. PICKLE’s novelty stems from its unique approach to PPI network definition, following a bottom-up reconstruction method based on UniProt’s reviewed complete human proteome (RCHP) definition. Five primary PPIDB (DIP, HPRD, IntAct, ΜΙΝΤ and BioGRID) were mined for interactions explicitly constrained by UniProt’s proteome definition. Furthermore, in order to tackle the issues of redundancy and inadequate normalization, a specific ontology was designed which allowed linking of the RCHP set with all the other levels of genetic organization while also serving as an agile yet accurate normaliza\-tion mechanism. In order to address the issue of updating, an autonomous means of data collection and integration was developed. PICKLE’s maiden release recorded 83720 direct PPIs involving 12418 UniProt IDs (out of 20225) supported by a total of 27590 publications. PICKLE, an evolving valuable bioinformatics for biomedical research and red biotechnology applications tool will soon be updated with a user-friendly interface and upgraded by linking it with network analysis software and various omics datasets.
- Published
- 2012