Marie-Anne Poursat, Damien Drubay, Arnaud Motz, Stefan Michiels, Zohra Saci, Daniel Gautheret, Antonin Morillon, Jia Li, Institut de Biologie Intégrative de la Cellule (I2BC), Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Laboratoire de Mathématiques d'Orsay (LM-Orsay), Université Paris-Sud - Paris 11 (UP11)-Centre National de la Recherche Scientifique (CNRS), Service de biostatistique et d'épidémiologie (SBE), Direction de la recherche clinique [Gustave Roussy], Institut Gustave Roussy (IGR)-Institut Gustave Roussy (IGR), Centre de recherche en épidémiologie et santé des populations (CESP), Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)-Université Paris-Sud - Paris 11 (UP11)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Hôpital Paul Brousse-Institut National de la Santé et de la Recherche Médicale (INSERM), Dynamique de l'information génétique : bases fondamentales et cancer (DIG CANCER), Université Pierre et Marie Curie - Paris 6 (UPMC)-Institut Curie [Paris]-Centre National de la Recherche Scientifique (CNRS), Méthodologie et épidémiologie clinique en oncologie moléculaire (U1018 (Équipe 2)), Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)-Université Paris-Sud - Paris 11 (UP11)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Hôpital Paul Brousse-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)-Université Paris-Sud - Paris 11 (UP11)-Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Hôpital Paul Brousse-Institut National de la Santé et de la Recherche Médicale (INSERM)-Institut Gustave Roussy (IGR), Institut de Biologie Intégrative de la Cellule ( I2BC ), Université Paris-Saclay-Centre National de la Recherche Scientifique ( CNRS ) -Commissariat à l'énergie atomique et aux énergies alternatives ( CEA ) -Université Paris-Sud - Paris 11 ( UP11 ), Laboratoire de Mathématiques d'Orsay ( LM-Orsay ), Université Paris-Sud - Paris 11 ( UP11 ) -Centre National de la Recherche Scientifique ( CNRS ), Service de biostatistique et d'épidémiologie ( SBE ), Institut Gustave Roussy ( IGR ) -Institut Gustave Roussy ( IGR ), Centre de recherche en épidémiologie et santé des populations ( CESP ), Université de Versailles Saint-Quentin-en-Yvelines ( UVSQ ) -Université Paris-Sud - Paris 11 ( UP11 ) -Assistance publique - Hôpitaux de Paris (AP-HP)-Hôpital Paul Brousse-Institut National de la Santé et de la Recherche Médicale ( INSERM ), Dynamique de l'information génétique : bases fondamentales et cancer ( DIG CANCER ), Université Pierre et Marie Curie - Paris 6 ( UPMC ) -INSTITUT CURIE-Centre National de la Recherche Scientifique ( CNRS ), Université Paris-Sud - Paris 11 (UP11)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay, Séquence, Structure et Fonction des ARN (SSFA), Département Biologie des Génomes (DBG), Université Paris-Sud - Paris 11 (UP11)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Institut de Biologie Intégrative de la Cellule (I2BC), Université Paris-Sud - Paris 11 (UP11)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11)-Commissariat à l'énergie atomique et aux énergies alternatives (CEA)-Centre National de la Recherche Scientifique (CNRS)-Université Paris-Saclay, Université Pierre et Marie Curie - Paris 6 (UPMC)-Institut Curie-Centre National de la Recherche Scientifique (CNRS), Institut Curie-Sorbonne Université (SU)-Centre National de la Recherche Scientifique (CNRS), Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)-Université Paris-Sud - Paris 11 (UP11)-Assistance publique - Hôpitaux de Paris (AP-HP) (APHP)-Hôpital Paul Brousse-Institut National de la Santé et de la Recherche Médicale (INSERM), Centre National de la Recherche Scientifique (CNRS)-Université Paris-Sud - Paris 11 (UP11), Assistance publique - Hôpitaux de Paris (AP-HP) (AP-HP)-Université Paris-Sud - Paris 11 (UP11)-Hôpital Paul Brousse-Institut National de la Santé et de la Recherche Médicale (INSERM)-Université de Versailles Saint-Quentin-en-Yvelines (UVSQ), Centre National de la Recherche Scientifique (CNRS)-Institut Curie [Paris]-Université Pierre et Marie Curie - Paris 6 (UPMC), and HAL UPMC, Gestionnaire
We address here the issue of prioritizing non-coding mutations in the tumoral genome. To this aim, we created two independent computational models. The first (germline) model estimates purifying selection based on population SNP data. The second (somatic) model estimates tumor mutation density based on whole genome tumor sequencing. We show that each model reflects a different set of constraints acting either on the normal or tumor genome, and we identify the specific genome features that most contribute to these constraints. Importantly, we show that the somatic mutation model carries independent functional information that can be used to narrow down the non-coding regions that may be relevant to cancer progression. On this basis, we identify positions in non-coding RNAs and the non-coding parts of mRNAs that are both under purifying selection in the germline and protected from mutation in tumors, thus introducing a new strategy for future detection of cancer driver elements in the expressed non-coding genome., Author Summary Cancer cells undergo a mutation/selection process that resembles that of any living cell. Most mutations in cancer cell DNA occur in the so-called "non-coding" regions that represent 98.5% of the genome length. Pinning down which of these mutations contribute to the fitness of cancer cells would be important for identifying new "cancer drivers", which may in turn lead to future treatments. Unfortunately, predicting the impact of a non-coding DNA alteration remains extremely difficult. In this study, we analyze millions of non-coding cancer mutations and show cancer-specific mutational patterns can be used to predict non-coding regions that are preserved from mutations and may thus be important for cancer cell survival. Combining this information with population data, we propose a new scoring system that should help prioritize important non-coding mutations in future studies.