Back to Search Start Over

Application of machine learning to remove false positive genomic position in vector insertion site data

Authors :
Omrani, M
ANTONIOTTI, MARCO
OMRANI, MARYAM
Omrani, M
ANTONIOTTI, MARCO
OMRANI, MARYAM
Publication Year :
2022

Abstract

La terapia genica (GT), il recente approccio per curare malattie genetiche rare ed ereditarie fornendo geni terapeutici in cellule mirate, ha interagito con la bioinformatica e i domini correlati all'analisi dei dati. Nelle applicazioni GT, è richiesto il monitoraggio molecolare del trattamento e sfrutta il sequenziamento di nuova generazione (NGS) per valutare l'efficacia e la sicurezza. Uno degli sforzi principali nell'identificazione dell'IS è mappare milioni di letture sequenziate nel genoma di riferimento. Oggi sono disponibili diversi allineatori per questo scopo. Tuttavia, lo scopo di alcuni lavori è ancora migliorare le prestazioni di rilevamento dell'IS tramite la scelta dell'algoritmo appropriato e testare varie strategie di filtraggio pre/post-allineamento. Poiché nonostante gli attuali miglioramenti nel campo, alcuni fattori come la lunghezza delle letture della sequenza, le regioni ripetute nei genomi di riferimento e gli errori di sequenza riducono l'accuratezza della mappatura. SI falso positivo, è un SI che viene riportato alla fine dell'identificazione SI quando non è presente. Il disallineamento è una delle possibili fonti di False Positive IS.Qui, per risolvere il problema dei False Positive e scartare il rumore nei nostri database clinici di IS, ci siamo prima concentrati sull'allineamento e sul filtraggio post-allineamento. A questo scopo, abbiamo generato una verità di base di letture simulate complessivamente composta da 125.778.685 letture di sequenziamento contenenti un numero totale di 4.333.904 IS e abbiamo provato a testare diversi passaggi della nostra pipeline bioinformatica. Abbiamo confermato che BWA-MEM, l'allineatore ampiamente utilizzato che è anche la scelta di VISPA2, ha buone prestazioni con una precisione del 91%. Ulteriori analisi hanno rivelato che alcune delle misurazioni statistiche come la qualità della mappatura (MAPQ) e il punteggio di allineamento subottimale (XS) riportate per ciascun risultato della mappatur<br />Gene Therapy (GT), the recent approach to cure rare and inherited genetic disorders by delivering therapeutic gene in targeted cells interacted with bioinformatics and data analysis-related domains. In GT applications, the molecular monitoring of the treatment is required and exploits Next generation sequencing (NGS) to assess efficacy and safety. One of the principal efforts in IS identification is mapping millions of sequenced reads to the reference genome. Today, several aligners are available for this aim. However, still improving the IS detection performance by choice of appropriate algorithm and testing various pre-/post-alignment filtering strategies is the scope of some works. Since despite the current improvements in the field, some factors like length of sequence reads, repeat regions in the reference genomes and sequence errors decrease the mapping accuracy. False Positive IS, is an IS that is reported at the end of IS identification when it is not present. Mis-alignment is one of the possible sources for False Positive IS.Here, to solve the problem of False Positive and discarding the noise in our clinical IS databases, we first focused on alignment and post-alignment filtering. For this aim, we generated a ground truth of simulated reads overall composed by 125,778,685 sequencing reads containing a total number of 4,333,904 IS and tried to test several steps of our bioinformatics pipeline. We confirmed that BWA-MEM, the widely-used aligner which is also the choice of VISPA2 has a good performance with 91% accuracy. Further analyses revealed that some of the statistic measurements such as Mapping Quality (MAPQ) and Sub optimal Alignment Score (XS) that are reported for each mapping result are not well-correlated with alignment accuracy. Therefore, filtering steps after alignment might lead to discarding many reads without improving the accuracy. Discarding reads which are aligned correctly might highly reduce sequence count. Moreover, knowing that intera

Details

Database :
OAIster
Notes :
Italian
Publication Type :
Electronic Resource
Accession number :
edsoai.on1364262212
Document Type :
Electronic Resource