1. Segmentation automatique en périodes pour le français parlé
- Author
-
Kalashnikova, Natalia, Eshkol-Taravella, Iris, Grobol, Loïc, Delafontaine, François, Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 (LattIce), Paris Sciences et Lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Cité (USPC)-École normale supérieure - Paris (ENS Paris)-Université Sorbonne Nouvelle - Paris 3, Laboratoire de Linguistique Formelle (LLF UMR7110), Centre National de la Recherche Scientifique (CNRS)-Université de Paris (UP), Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 (Lattice), Département Littératures et langage (LILA), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Cité (USPC)-Université Sorbonne Nouvelle - Paris 3, Benzitoun, Christophe, Braud, Chloé, Huber, Laurine, Langlois, David, Ouni, Slim, Pogodalla, Sylvain, Schneider, Stéphane, Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage - ENS Paris (LILA), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL), Laboratoire de Linguistique Formelle (LLF), Centre National de la Recherche Scientifique (CNRS)-Université Paris Cité (UPCité), and Département Littératures et langage - ENS Paris (LILA)
- Subjects
unités macro-syntaxiques ,[INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing ,français parlé ,CRF ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,français oral ,[INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,automatic tokenization ,periods ,segmentation automatique ,French spoken language ,périodes ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
International audience; Nous proposons la comparaison de deux méthodes de segmentation automatique du français parlé en périodes macro-syntaxiques, qui permettent d'analyser la syntaxe et la prosodie du discours. Nous comparons l'outil Analor (Avanzi et al., 2008) qui a été développé pour la segmentation des périodes prosodiques et les modèles de segmentations utilisant des CRF et des traits prosodiques et / ou morpho-syntaxiques. Les résultats montrent qu'Analor divise le discours en plus petits segments prosodiques tandis que les modèles CRF détectent des segments plus larges que les périodes macro-syntaxiques. Cependant, les modèles CRF ont de meilleurs résultats qu'Analor en termes de F-mesure.
- Published
- 2020