1. Identification of motifs in biological sequences using genetic programming
- Author
-
Velasco, Àlex, Universitat Autònoma de Barcelona. Escola d'Enginyeria, Serra-Sagristà, Joan, and Serra Sagristà, Joan
- Subjects
Secuencias ,Població ,Framework ,Population ,Mutació ,Operador ,Reconocedor de pssm ,Entorno de trabajo ,Genetic programming ,Sequences ,Control de la complexitat ,Binding site ,Entorn de treball ,Motiu biològic ,Programació genètica ,Algoritmo ,PSSM recognizer ,Tree structure ,Complexity control ,Población ,Placement ,Lugar de unión ,Mutation operator ,Mutación ,Posicionament ,Posicionamiento ,Lloc d'unió ,Estructura en árbol ,Organismo ,Reconeixedor de pssm ,Algorisme ,Algorithm ,Seqüències ,Organisme ,Programación genética ,Organism ,Estructura en arbre ,Motivo biológico ,Control de la complejidad ,Biological motif - Abstract
Current tools for motif discovery search patterns that are over-represented in DNA sequences but do not use DNA curvature or cofactors associated with the protein bind. We developed a tool that searches for motifs with a variable gap between patterns. The search is done using a genetic programming algorithm that searches for possible models that could be the motif and tries to fit them in a set of positive sequences with the motif against a control dataset. To evaluate the fitness of the organisms we have created an energy model for each component of the regulated bacterial promoters. The final genetic algorithm is able to find hidden motifs in synthetic sequences and real biological sequences. Les eines actuals per al descobriment de motius busquen patrons que estan sobre-representats a les seqüències d'ADN, però no utilitzen la curvatura de l'ADN o cofactors associats a la unió de la proteïna. Hem desenvolupat una eina que busca motius amb un espaiador variable entre patrons. La cerca es fa mitjançant un algorisme de programació genètica que busca possibles models que podrien ser el motiu i intenta encaixar-los en un conjunt de seqüències positives que inclouen el motiu envers un conjunt de seqüències de control. Per avaluar l'encaix dels organismes hem creat un model d'energia per a cada component dels promotors reguladors bacterians. L'algorisme genètic final és capaç de trobar motius ocults a seqüències sintètiques i seqüències reals. Las herramientas actuales para el descubrimiento de motivos buscan patrones que están sobrerepresentados en las secuencias de ADN, pero no usan la curvatura del ADN o cofactores asociados a la unión de la proteína. Hemos desarrollado una herramienta que busca motivos con un espaciado variable entre patrones. La búsqueda se hace mediante un algoritmo de programación genética que busca posibles modelos que podrían ser el motivo y los intenta encajar en un conjunto de secuencias positivas que incluyen el motivo contra un conjunto de secuencias de control. Para evaluar el encaje de los organismos, hemos creado un modelo de energía para cada componente de los promotores reguladores bacterianos. El algoritmo genético final es capaz de encontrar motivos ocultos en secuencias sintéticas y secuencias reales.
- Published
- 2020