99 results on '"Heiden, Serge"'
Search Results
2. Profiterole : un corpus morpho-syntaxique et syntaxique de français médiéval
- Author
-
Prévost, Sophie, primary, Grobol, Loïc, additional, Dehouck, Mathieu, additional, Lavrentiev, Alexei, additional, and Heiden, Serge, additional
- Published
- 2024
- Full Text
- View/download PDF
3. Mémoires des attentats terroristes du 13-Novembre 2015 : ce que peut nous apprendre l’analyse de discours
- Author
-
Peschanski, Denis, Pincemin, Bénédicte, Heiden, Serge, Lacoste, Charlotte, Centre européen de sociologie et de science politique (CESSP), Université Paris 1 Panthéon-Sorbonne (UP1)-École des hautes études en sciences sociales (EHESS)-Centre National de la Recherche Scientifique (CNRS), Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA), Centre de Recherche sur les Médiations (Crem), Université de Lorraine (UL), Matrice - 13 novembre [En savoir plus]Matrice - 13 novembre - ANR-16-EQPX-0003EQPX - 2016, and ANR-16-EQPX-0003,Matrice - 13 novembre,Matrice - 13 novembre(2016)
- Subjects
[STAT]Statistics [stat] ,sciences de la mémoire ,textométrie ,textometry ,collective memory ,Correspondence Analysis ,Analyse Factorielle des Correspondances ,individual memory ,memory sciences ,mémoire collective ,mémoire individuelle ,[SHS]Humanities and Social Sciences - Abstract
International audience; The Programme 13-Novembre aims to analyze the individual and collective memory of the terrorist attacks of November 13, 2015. At its heart is the Étude 1000 , which is to gather the same 1000 people in audiovisual interviews four times in 10 years. Having the transcripts at our disposal, we choose here to show the importance of discourse analysis by recalling its theoretical foundations, to present one of the tools allowing this statistical analysis, the Correspondence Factor Analysis, and to use it to analyze the sub-corpus of interviews conducted at a distance from the Paris events, with 76 inhabitants of the Metz region. Crossing these volunteers with the words they use, we see that two variables clearly stand out that oppose the vocabularies, the gender variable and the age variable.; Le Programme 13-Novembre vise à analyser la mémoire individuelle et collective des attentats terroristes du 13 novembre 2015. Au cœur se trouve l’Étude 1000 qui doit recueillir, à 4 reprises en 10 ans, les témoignages des mêmes 1000 personnes dans des entretiens audiovisuels. Disposant des transcriptions, nous choisissons ici de montrer l’importance de l’analyse de discours en rappelant ses fondements théoriques, de présenter l’un des outils permettant cette analyse statistique, l’Analyse Factorielle des Correspondances, et de l’utiliser pour analyser le sous-corpus des entretiens réalisés à distance des événements parisiens, auprès de 76 habitants de la région de Metz. Croisant ces volontaires avec les mots qu’ils utilisent, on constate que deux variables ressortent clairement qui opposent les vocabulaires, la variable du genre et la variable de l’âge.
- Published
- 2023
- Full Text
- View/download PDF
4. Computational Literary Studies Infrastructure (CLS INFRA): Initial Findings and Conclusions for the Field
- Author
-
Birkholz, Julie M., Börner, Ingo, Byszuk, Joanna, Chambers, Sally, Charvat, Vera Maria, Cinková, Silvie, Dejaeghere, Tess, Dudar, Julia, Ďurčo, Matej, Eder, Maciej, Edmond, Jennifer, Fileva, Evgeniia, Fischer, Frank, Garnett, Vicky, Heiden, Serge, Křen, Michal, Kunda, Bartłomiej, Laszakovits, Sabine, Mrugalski, Michał, Papaki, Eliza, Raciti, Marco, Resch, Stefan, Ros, Salvador, Schöch, Christof, Šeļa, Artjoms, Tasovac, Toma, Tonra, Justin, Tóth-Czifra, Erzsébet, Trilcke, Peer, van Dalen-Oskam, Karina, van Rossum, Lisanne, Scholger, Walter, Vogeler, Georg, Tasovac, Toma, Baillot, Anne, Raunig, Elisabeth, Scholger, Martina, Steiner, Elisabeth, Centre for Information Modelling, and Helling, Patrick
- Subjects
Paper ,and methods ,Informatics ,and ethics analysis ,CLS ,computational literary studies ,public humanities collaborations and methods ,digital access ,Linguistics ,Cultural studies ,research infrastructures ,privacy ,data publishing projects ,Literary studies ,text mining and analysis ,FOS: Languages and literature ,systems ,Poster - Abstract
The aim of this poster is to provide an overview of the work carried out in the CLS INFRA project and its conclusions for the field of Computational Literary Studies.
- Published
- 2023
- Full Text
- View/download PDF
5. Making Hobbes's Bible in the English Political Works Machine-Readable: A TXM-Based Workflow
- Author
-
Rebasti, Francesca, Heiden, Serge, Scholger, Walter, Vogeler, Georg, Tasovac, Toma, Baillot, Anne, Raunig, Elisabeth, Scholger, Martina, Steiner, Elisabeth, Centre for Information Modelling, and Helling, Patrick
- Subjects
Paper ,Hobbes ,URS annotation TXM extension ,and methods ,History ,Long Presentation ,TXM ,analysis ,annotation structures ,scholarly editing and editions development ,Bible ,Theology and religious studies ,FOS: Philosophy, ethics and religion ,Philosophy ,EEBO-TCP XML-TEI P5 diplomatic transcriptions ,text mining and analysis ,Humanities computing ,systems ,data modeling - Abstract
Based on ongoing research in the collaborative Digital Theological Hobbes (DTH) project, this long presentation aims to showcase the benefits of a textometric approach to the elaboration and exploitation of a machine-readable model of Hobbes's Bible in the English political works relying on the TXM software platform.
- Published
- 2023
- Full Text
- View/download PDF
6. CLS INFRA D8.1 Report of the tools for the basic Natural Language Processing (NLP) tasks in the CLS context
- Author
-
Cinková, Silvie, Birkholz, Julie M., Börner, Ingo, Dejaeghere, Tess, Heiden, Serge, Janssen, Maarten, Křen, Michal, and Pozo, Alvaro Perez
- Subjects
Parsing ,Infrastructure ,Text Mining ,CLS ,Annotation ,DH ,Text search ,Corpus ,NLP ,Computational Literary Studies ,Digital Humanities ,Tools ,Tagging ,Multilingual ,Named-Entity Recognitiion ,Information Extraction - Abstract
This report lists and describes a selection of Natural Language Processing (NLP) tools which are considered to form a Corpus-Enrichment and NLP toolchain for common CLS research tasks. The tools were selected to be: • safely positioned in their life cycle, i.e., state-of-the art, and mature as well as continuously maintained, or in development and promised as CLS Infra Deliverables by March 2025 • as multilingual as possible (beyond English and several major European languages) • as interoperable as possible with other tools and texts in other languages.
- Published
- 2023
- Full Text
- View/download PDF
7. CLS INFRA Poster Presentation DH2022 Tokyo
- Author
-
Birkholz, Julie, Börner, Ingo, Chambers, Sally, Charvat, Vera, Cinková, Silvie, Van Dalen-Oskam, Karina, Dejaeghere, Tess, Dudar, Julia, Ďurčo, Matej, Edmond, Jennifer, Evgeniia Fileva, Fischer, Frank, Heiden, Serge, Křen, Michal, Bartłomiej Kunda, Michał Mrugalski, Murphy, Ciara, Odebrecht, Carolin, Raciti, Marco, Ros, Salvador, Schöch, Christof, Šeļa, Artjoms, Tasovac, Toma, Tonra, Justin, Tóth-Czifra, Erzsébet, Trilcke, Peer, Eder, Maciej, and Van Rossum, Lisanne M.
- Subjects
Infrastructure ,Research practice ,Computational Literary Studies - Abstract
Computational Literary Studies Infrastructure, funded by the Horizon2020 grant scheme, is a four-year, pan-European project that aims to unify the diverse landscape of computational text analysis, in terms of available texts, tools, methods, practices and so forth, within its growing international user community. The project started out in February 2021, meaning that it has been underway for just over a year. In our poster we discuss the various deliverables and activities that have come out of the CLS INFRA project in its first quarter to give an idea of its impact in practice. 
- Published
- 2022
- Full Text
- View/download PDF
8. The textometric concept of active corpus
- Author
-
Pincemin, Bénédicte, Heiden, Serge, Mazuet, Franck, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA), Centre d'histoire sociale des mondes contemporains (CHS), Université Paris 1 Panthéon-Sorbonne (UP1)-Centre National de la Recherche Scientifique (CNRS), VADISTAT - Per Simona Balbi, Univ. of Naples Federico II, Misuraca, Michelangelo, Scepi, Germana, Spano, Maria, and ANR-17-CE38-0010,ANTRACT,Analyse Transdisciplinaire des Actualités filmées (1945-1969)(2017)
- Subjects
Digital Humanities ,Newsreels ,[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,Corpus projection ,TXM software ,Les Actualités françaises ,Textometry ,Active corpus ,Corpus annotation ,Film grammar ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.HIST]Humanities and Social Sciences/History - Abstract
International audience; Active corpus provides the possibility to apply searching and statistical computing as if corpus were reduced to selected words, whereas full text still remains visible in context display. This is mainly implemented in paradigmatic processing, yet it may concern syntagmatic processing or text display too. Here we experiment active corpus in syntagmatic processing. A projection generates a new corpus, in which words are semantic tags that were automatically assigned in a first step to the original data. This new corpus makes it easy to explore tag sequences, with any generic textometric tool available, however sparse the original annotation may be. This methodological path was applied to film grammar analysis on 10,000 archival descriptions of news reports. 19 camera shot and angle types were ed through queries and tagged. This annotation became the lexicon of the projected corpus that was used to study shot sequences. The annotation and projection tools we have run are available as utilities in TXM open-sourcesoftware and should usefully serve many research projects.
- Published
- 2022
9. Key Node in Context (KNIC) Concordances: Improving Usability of an Old French Treebank
- Author
-
Rainsford Thomas M. and Heiden Serge
- Subjects
Social Sciences - Abstract
While annotated treebanks are an invaluable tool in linguistic research, the tree-based form in which corpus search tools often present search results is not necessarily well-suited to the user’s requirements. We argue that a concordance style export of search results, built around a user-identified "key node" in the query, represents a useful synoptic view of the data for the user needing to carry out further manual analysis of query results. We present a first implementation of these 'KNIC' concordances for an Old French corpus, using the TigerSearch treebank search engine integrated into the TXM corpus analysis platform.
- Published
- 2014
- Full Text
- View/download PDF
10. Retour de pêche. Le métier de pêcheur à travers le discours des professionnels français du lac Léman
- Author
-
Le Lay, Yves-François, primary, Heiden, Serge, additional, Merchez, Luc, additional, and Pincemin, Bénédicte, additional
- Published
- 2016
- Full Text
- View/download PDF
11. CLS Infra Computational Literary Studies Infrastructure
- Author
-
Ros, Salvador, van Dalen-Oskam, Karina, Odebrecht, Carolin, Tasovac, Toma, Edmond, Jennifer, Tóth-Czifra, Erszsébet, Cinková, Silvie, Börner, Ingo, van Rossum, Lisanne, Chambers, Sally, Mrugalski, Michał, Charvat, Vera, Schöch, Christof, Tonra, Justin, Kunda, Bartłomiej, Murphy, Ciara, Raciti, Marco, Trilcke, Peer, Šeļa, Artjoms, Křen, Michal, Birkholz, Julie, Eder, Maciej, Heiden, Serge, Fischer, Frank, Dudar, Julia, Ďurčo, Matej, Dejaeghere, Tess, and Fileva, Evgeniia
- Abstract
Computational Literary Studies Infrastructure, funded by the Horizon2020 grant scheme, is a four-year, pan-European project that aims to unify the diverse landscape of computational text analysis, in terms of available texts, tools, methods, practices and so forth, within its growing international user community. The project started out in February 2021, meaning that it has been underway for just over a year. In our poster we discuss the various deliverables and activities that have come out of the CLS INFRA project in its first quarter to give an idea of its impact in practice.
- Published
- 2022
12. Changes over 10 years in the retelling of the flashbulb memories of the attack of 11 September 2001
- Author
-
Dégeilh, Fanny, primary, Lecouvey, Grégory, additional, Hirst, William, additional, Heiden, Serge, additional, Pincemin, Bénédicte, additional, Decorde, Matthieu, additional, Meksin, Robert, additional, Eustache, Francis, additional, and Peschanski, Denis, additional
- Published
- 2021
- Full Text
- View/download PDF
13. Enjeux philologiques, linguistiques et informatiques de la philologie numérique : l’exemple de la segmentation des mots
- Author
-
Lavrentiev, Alexei, Guillot, Céline, Heiden, Serge, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA), Lavrentev, Alexey, École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), and Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA)
- Subjects
Philologie numérique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Segmentation lexicale ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Diachronie du français - Abstract
International audience; Les linguistes travaillant sur l’histoire de la langue ont toujours exploité et utilisé comme principale source d’exploration les éditions « classiques », bien que depuis longtemps on connaisse leurs limites pour la recherche linguistique. Le développement des technologies modernes a d’un autre côté rendu le recours à de nouveaux outils (concordances, index, calculs statistiques) peu à peu indispensable à la recherche en langue, et plus récemment, les progrès continus de la technologie ont également permis d’envisager la réalisation d’éditions d’un nouveau type. L’édition numérique, qui a déjà donné lieu à plusieurs réalisations concrètes, a ainsi permis aux linguistes auparavant bridés par le papier et les techniques traditionnelles d’exprimer plus librement leurs besoins et leurs exigences. Plusieurs recherches récentes déjà publiées montrent l’efficacité de ce mouvement et le caractère novateur des acquis ainsi obtenus. A partir d’un exemple concret d’édition numérique interactive, notre présentation détaillera les enjeux méthodologiques liés à ces nouveaux outils et à ces nouvelles pratiques, en proposant une réflexion sur le concept de « philologie numérique » et en montrant ses principaux apports pour la recherche diachronique. Cette question sera illustrée en particulier par la question de la segmentation des mots.
- Published
- 2021
14. Introduction historique et méthodologique à la textométrie et au logiciel TXM
- Author
-
Heiden, Serge, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), PUDD, and PROGEDO
- Subjects
Analyse de données ,Textométrie ,Analyse textuelle ,[SHS]Humanities and Social Sciences - Abstract
Développée dans la continuité de la lexicométrie et de l’analyse de données « à la française », la textométrie est une méthode d’analyse de corpus textuels s’appuyant sur des observables textuels construits à partir de l’enrichissement linguistique automatique de textes par les outils de TAL (catégories grammaticales et lemmes de mots...) et sur la structuration des textes encodée en XML selon les recommandations du consortium TEI (www.tei-c.org).
- Published
- 2020
15. Textometry on Audiovisual Corpora: Experiments with TXM software
- Author
-
Pincemin, Bénédicte, Heiden, Serge, Decorde, Matthieu, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Laboratoire d’Etudes et Recherches Appliquées en Sciences Sociales (Lerass), EA827, Université de Toulouse 3 - Paul Sabatier, Pascal MARCHAND & Pierre RATINAUD, ANR-17-CE38-0010,ANTRACT,Analyse Transdisciplinaire des Actualités filmées (1945-1969)(2017), ANR-10-EQPX-0021,MATRICE,Outils de recherche pour l'analyse de la mémoire par la coopération internationale et les expérimentations. Entre mémoire individuelle et mémoire sociale: les outils et nécessités de l'innovation(2010), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), and ANR: 10-EQPX-0021,MATRICE,Outils de recherche pour l'analyse de la mémoire par la coopération internationale et les expérimentations. Entre mémoire individuelle et mémoire sociale: les outils et nécessités de l'innovation(2010)
- Subjects
multimedia ,audio recordings ,[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,speech-to-text software ,TXM ,semi-directed interviews ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,Actualités françaises newsreels ,manual transcription ,non-verbal communication ,XML ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,video archive - Abstract
International audience; Textometry is applied to audiovisual corpora, such as transcripts from semi-directed interviews, or the "Actualités françaises" newsreels archive. A workflow using an assisted or automatic transcription software is efficient to get a rich encoding. New features are added to the TXM software: a specialized import module based on Transcriber XML format, a utility to convert text transcripts to XML, and the MediaPlayer extension to watch the video segment corresponding to a word context selection. Methodological thoughts arise from this experience. It is highly relevant that textometry takes into account internal text structures (such as speech turns) and other meta-information (such as timecodes). Meta-information has to be displayed and available for processing without being mixed with contents. Another challenge is to integrate multiple interrelated representations. A back-to-media feature is as fundamental as the back-to-text one to provide context to interpretation work.
- Published
- 2020
16. Textometry on Audiovisual Corpora
- Author
-
Pincemin, Bénédicte, Heiden, Serge, Decorde, Matthieu, Pincemin, Bénédicte, Analyse Transdisciplinaire des Actualités filmées (1945-1969) - - ANTRACT2017 - ANR-17-CE38-0010 - AAPG2017 - VALID, Equipements d'excellence - Outils de recherche pour l'analyse de la mémoire par la coopération internationale et les expérimentations. Entre mémoire individuelle et mémoire sociale: les outils et nécessités de l'innovation - - MATRICE2010 - ANR-10-EQPX-0021 - EQPX - VALID, and Pascal MARCHAND & Pierre RATINAUD
- Subjects
multimedia ,audio recordings ,speech-to-text software ,TXM ,semi-directed interviews ,[SHS.STAT] Humanities and Social Sciences/Methods and statistics ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,Actualités françaises newsreels ,manual transcription ,non-verbal communication ,XML ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,video archive - Abstract
Textometry is applied to audiovisual corpora, such as transcripts from semi-directed interviews, or the "Actualités françaises" newsreels archive. A workflow using an assisted or automatic transcription software is efficient to get a rich encoding. New features are added to the TXM software: a specialized import module based on Transcriber XML format, a utility to convert text transcripts to XML, and the MediaPlayer extension to watch the video segment corresponding to a word context selection. Methodological thoughts arise from this experience. It is highly relevant that textometry takes into account internal text structures (such as speech turns) and other meta-information (such as timecodes). Meta-information has to be displayed and available for processing without being mixed with contents. Another challenge is to integrate multiple interrelated representations. A back-to-media feature is as fundamental as the back-to-text one to provide context to interpretation work.
- Published
- 2020
17. Annotation-based Digital Text Corpora Analysis within the TXM Platform
- Author
-
Heiden, Serge, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), DII– Department of Enterprise Engineering 'Mario Lucertini' Tor Vergata University, DSS– Department of Statistical Sciences, Sapienza University, Rome, Domenica Fioredistella IEZZI, Livia CELARDO, Michelangelo MISURACA, ANR-15-CE38-0008,DEMOCRAT,DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique(2015), ANR-14-FRAL-0006,PaLaFra,Le PAssage du LAtin au FRAnçais: constitution et analyse d'un corpus numérique latino-français(2014), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Heiden, Serge, DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique - - DEMOCRAT2015 - ANR-15-CE38-0008 - AAPG2015 - VALID, Programme franco-allemand en Sciences humaines et sociales - Le PAssage du LAtin au FRAnçais: constitution et analyse d'un corpus numérique latino-français - - PaLaFra2014 - ANR-14-FRAL-0006 - FRAL - VALID, and Domenica Fioredistella IEZZI, Livia CELARDO, Michelangelo MISURACA
- Subjects
[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,[SCCO.COMP]Cognitive science/Computer science ,[SCCO.LING]Cognitive science/Linguistics ,[STAT.OT]Statistics [stat]/Other Statistics [stat.ML] ,corpus analysis ,corpus annotation ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[STAT.OT] Statistics [stat]/Other Statistics [stat.ML] ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,interactive annotation ,textual corpus ,[SCCO.COMP] Cognitive science/Computer science ,corpus encoding ,[SHS.STAT] Humanities and Social Sciences/Methods and statistics ,[SCCO.LING] Cognitive science/Linguistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,XML-TEI encoding ,Natural Language Processing - Abstract
This paper presents new developments in the TXM textual corpora analysis platform (http://textometrie.org)towards direct text annotation functionalities. Some annotations are related to a web based external historicontology called SyMoGIH and others to co-reference information between words or to word properties like partof speech or lemma.The paper discusses the methodological stakes of unifying in a single framework the production and the analysisthose annotations with the traditional ones already available in TXM corresponding to the XML markup of thetext sources and to the linguistic annotations automatically added to texts by NLP tools., Cet article présente les nouveaux développements de la plateforme d'analyse de corpus textuels TXM (http://textometrie.org) vers des fonctionnalités d’annotation textuelle directe. Certaines annotations sont liées à une ontologie historique externe appelée SyMoGIH, d’autres à l’encodage de liens de co-référence entre mots d’un texte et les dernières à des propriétés de mots telles que leur catégorie grammaticale ou leur lemme.L’article discute les enjeux méthodologiques d’une unification de la production et de l’analyse d’annotations au sein de la plateforme au regard des systèmes d’annotation traditionnels déjà exploités par TXM comme le balisage XML TEI des sources textuelles et les annotations linguistiques ajoutées automatiquement aux textes par les outils de TAL.
- Published
- 2018
18. Manuel de TXM, Extension Annotation URS (Unité-Relation-Schéma) version 1.0
- Author
-
Heiden, Serge
- Subjects
TXM, textometry, annotation, URS, co-reference - Abstract
Documentation of the "URS (Unité-Relation-Schéma) Annotation" TXM extension.
- Published
- 2019
- Full Text
- View/download PDF
19. XML-TEI-URS: using a TEI format for annotated linguistic resources
- Author
-
Grobol, Loïc, Landragin, Frédéric, Heiden, Serge, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 (Lattice), Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage - ENS Paris (LILA), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL), Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), ANR-15-CE38-0008,DEMOCRAT,DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique(2015), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS Paris), Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Lumière - Lyon 2 (UL2)-Université Jean Monnet [Saint-Étienne] (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-École normale supérieure - Lyon (ENS Lyon)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020]), Département Littératures et langage - ENS Paris (LILA), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Cité (USPC)-Université Sorbonne Nouvelle - Paris 3, Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage (LILA), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Landragin, Frédéric, DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique - - DEMOCRAT2015 - ANR-15-CE38-0008 - AAPG2015 - VALID, and Université Sorbonne Paris Cité - - USPC2011 - ANR-11-IDEX-0005 - IDEX - VALID
- Subjects
[SPI.OTHER]Engineering Sciences [physics]/Other ,[SCCO.COMP] Cognitive science/Computer science ,[SPI.OTHER] Engineering Sciences [physics]/Other ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,[SCCO.COMP]Cognitive science/Computer science ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences - Abstract
International audience; This paper discusses XML-TEI-URS, a recently introduced TEI-compliant XML format for theannotation of referential phenomenons in arbitrary corpora. We describe our experiments on usingthis format in different contexts, assess its perceived strengths and weaknesses, compare it withother similar efforts and suggest improvements to ease its use as standard for thedistribution of interoperable annotated linguistic resources.
- Published
- 2018
20. L'évolution de la mémoire de la Shoah au prisme de la statistique textuelle
- Author
-
Mayaffre, Damon, Pincemin, Bénédicte, Heiden, Serge, Weyl, Philippe, BCL, équipe Logométrie : corpus, traitements, modèles, Bases, Corpus, Langage (UMR 7320 - UCA / CNRS) (BCL), Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Fondation pour la Mémoire de la Shoah (FMS), ANR-10-EQPX-0021 MATRICE, Denis Peschanski, Brigitte Sion, ANR-10-EQPX-0021,MATRICE,Outils de recherche pour l'analyse de la mémoire par la coopération internationale et les expérimentations. Entre mémoire individuelle et mémoire sociale: les outils et nécessités de l'innovation(2010), Université Côte d'Azur (UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Université Côte d'Azur (UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA), Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Lumière - Lyon 2 (UL2)-Université Jean Monnet [Saint-Étienne] (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-École normale supérieure - Lyon (ENS Lyon)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020]), Fondation pour la mémoire de la Déportation (FMD), Fondation pour la mémoire de la Déportation - FMD, École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), and Mayaffre, Damon
- Subjects
[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,[SHS.STAT] Humanities and Social Sciences/Methods and statistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
As part of the Matrix Équipex, we gather here a corpus of testimonies of survivors of the Shoah, diachronic from the perspective of the writing time: immediate testimonies written after the end of the war, median testimonies written in the 1980's and recent testimonies written in the 2000's. The objective is to deploy the TDA tools to serialize the primary vocabulary probably directly inherited from the camps and a reconstructed vocabulary that includes, over the years, the historical understanding of an unintelligible event to contemporary victims. In a way, it is not the genetics of texts that we make but the genetics of memories within the texts of the corpus. Specifically, mapping by factorial analysis, the cooccurrency approach and contrastive statistics allow us to deconstruct the testimonies in superimposed layers of memory ie in distinct lexical sedimentations that structure texts at different levels., Dans le cadre de l’Équipex Matrice, nous rassemblons ici un corpus de témoignages de survivant de la Shoah, diachronique du point de vue de la date d’écriture : témoignages immédiats écrits à la sortie de la guerre, témoignages médians écrits dans les années 1980, et témoignages récents écrits dans les années 2000. L’objectif est alors de mobiliser les outils de l’ADT pour sérier le vocabulaire primaire sans doute hérité directement des camps et un vocabulaire reconstruit qui intègre, au fil des années, la compréhension historique d’un événement inintelligible aux victimes contemporaines. D’une certaine manière, il s’agit non pas de faire de la génétique de texte, mais de la génétique mémorielle au sein des textes du corpus. Particulièrement, la cartographie par analyse factorielle nous permet de déconstruire les témoignages en couches mémorielles superposées c’est-à-dire en sédimentations lexicales distinctes qui structurent à plusieurs niveaux le texte.
- Published
- 2018
21. Métopes + TXM: Integrating Text Publishing and Text Analysis Tools Based on TEI Encoding
- Author
-
Lavrentiev, Alexei, Heiden, Serge, Bourdot, Charles, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA), Université de Caen Normandie (UNICAEN), Normandie Université (NU), Consortium CAHIER, Lavrentev, Alexey, École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), and Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Clermont Auvergne (UCA)
- Subjects
[SHS.LITT] Humanities and Social Sciences/Literature ,editorial workflow ,[SHS.LITT]Humanities and Social Sciences/Literature ,TXM ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,single-source publishing ,[INFO]Computer Science [cs] ,[INFO] Computer Science [cs] ,TEI ,Métopes - Abstract
International audience; This paper presents an experience of creating workflows in text publishing and text corpus analysis projects that integrate, thanks to TEI encoding, two sets of tools created for different purposes.The first set of tools is called Métopes (Métodes et outils pour l’édition structurée, or Methods and tools for structured publishing). It was developed by the Pôle document numérique of the Research centre for the Humanities (MRSH) in Caen (France) and consists in a full single-source publishing toolchain. After primary editing with Microsoft Word the documents are converted using special macros to TEI, which is the core format for further editing and for all publication forms, including PDF for printing (finalized with InDesign), ePubs and online editions produced dynamically from TEI sources by the MaX tool (based on BaseX). Métopes has been adopted by a number of French academic publishers.TXM, on the other hand, is a free and open-source (GPL V3. licence) Java and C based platform for text corpus building, annotationand analysis. It includes NLP tools, search engines and visualization tools with convenient hyperlinks between distant synthetic quantitative analysis to close reading views . TXM uses TEI (with a couple of extension elements) as an internal format for encoding the text structure and all kinds of annotations.So, both Métopes and TXM rely on TEI markup. However, Métopes focuses on general text structure and on presentational aspects (e.g. it is very sensitive to white spaces), while TXM needs to perform precise linguistic analysis (e.g. tokenisation, language identification in multi-language documents).Thanks to funding from CAHIER consortium, an intern from Caen worked for three months with the TXM team in 2017. He created a set of XSLT and CSS stylesheets that make it possible to correctly parse and analyse a Métopes produced text file or corpus with TXM, and to generate high quality publications based on texts prepared for TXM analysis. In many cases both tools use the same TEI tags, which makes integration quite straightforward. In other cases, more work is necessary to ensure full compatibility (e.g. generating table of contents in TXM or supporting word-level annotation by Métopes tools). A further integration step may consist in creating a single editorial and analytical toolchain for text scholars. A simplified workflow chart of this chain is presented in the Figure 1.The work done so far is documented on a wiki page, and the scripts (Groovy and XSLT) are available for download under an LGPL license. All documentation is currently only available in French but we are interested in collaboration for its translation into English and other languages.
- Published
- 2018
22. Textometric Exploitation of Coreference-annotated Corpora with TXM: Methodological Choices and First Outcomes
- Author
-
Quignard, Matthieu, Heiden, Serge, Landragin, Frédéric, Decorde, Matthieu, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 (Lattice), Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage - ENS Paris (LILA), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL), Domenica Fioredistella IEZZI, Livia CELARDO, Michelangelo MISURACA, Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., ANR-15-CE38-0008,DEMOCRAT,DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique(2015), Landragin, Frédéric, DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique - - DEMOCRAT2015 - ANR-15-CE38-0008 - AAPG2015 - VALID, Domenica Fioredistella IEZZI, Livia CELARDO, Michelangelo MISURACA, École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Département Littératures et langage - ENS Paris (LILA), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Cité (USPC)-Université Sorbonne Nouvelle - Paris 3, and Département Littératures et langage (LILA)
- Subjects
exploration tool ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,visualisation tool ,annotation tool ,[SCCO.COMP]Cognitive science/Computer science ,[SCCO.LING]Cognitive science/Linguistics ,[STAT.OT]Statistics [stat]/Other Statistics [stat.ML] ,corpus annotation ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[STAT.OT] Statistics [stat]/Other Statistics [stat.ML] ,statistical analysis of textual data ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,[SCCO.COMP] Cognitive science/Computer science ,coreference chain ,[SCCO.LING] Cognitive science/Linguistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
In this article we present a set of measures – some of which can lead to specific visualisations – with the objective to enrich the possibilities of exploration and exploitation of annotated data, and in particular coreference chains. We first present a specific use of the well-known concordancer, which is here adapted to present the elements of a coreference chain. We then present a histogram generator that allows for example to display the distribution of the various coreference chains of a text, given a value from the annotated properties. Finally, we present what we call progress diagrams, whose purpose is to display the progress of each chain throughout the text. We conclude on the interest of these (interactive) modes of visualization in order to make the annotation phase more controlled and more effective., Nous présentons dans cet article un ensemble de mesures – dont certaines peuvent amener à des visualisations spécifiques – dont l'objectif est d'enrichir les possibilités d'exploration et d'exploitation des données annotées, en particulier quand il s'agit de chaînes de coréférences. Nous présentons tout d'abord une utilisation adaptée de l'outil bien connu qu'est le concordancier, en n'affichant que les maillons d'une chaîne choisie. Puis nous montrons un générateur d'histogramme qui permet par exemple d'afficher la répartition des chaînes de coréférences d'un texte à partir d'une propriété annotée. Nous montrons enfin ce que nous appelons des diagrammes de progression, dont le but est d'afficher les avancées au fur et à mesure du texte des chaînes de coréférences qu'il contient. Nous concluons sur l'intérêt de ces modes (interactifs) de visualisation pour rendre la phase d'annotation plus maîtrisée et plus efficace.
- Published
- 2018
23. Diachronie de l'oral représenté: délimitation et segmentation interne du dialogue (IXe-XVe siècle)
- Author
-
Guillot-Barbance, Céline, Lavrentiev, Alexei, Heiden, Serge, Pincemin, Bénédicte, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Wendy Ayres-Benett, Anne Carlier, Julie Glikman, Thomas Rainsford, Gilles Siouffi, Carine Skupien Dekens, Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., ANR-11-IDEX-0007,Avenir L.S.E.,PROJET AVENIR LYON SAINT-ETIENNE(2011), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), and ANR-11-IDEX-0007,Avenir L.S.E.,Advanced Studies on Language Complexity(2011)
- Subjects
dialog ,dialogue ,ancien français ,TXM software ,corpus linguistics ,incise ,oral représenté ,structuration discursive ,episode of reported speech ,Middle French ,BFM medieval French corpus ,reporting clause ,logiciel TXM ,linguistique de corpus ,discourse structure ,Old French ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,moyen français ,Base de français médiéval - Abstract
International audience; Reported speech can be defined as the rendering by writing of spoken utterances. From the beginning of French, sequences or episodes of reported speech are inserted into texts. Sometimes monologic, sometimes dialogic, these episodes are explicitly distinguished from the rest of texts thanks to a system of linguistic marks or tags. In this article, we are interested in the marks that provide the outer boundary of those episodes (the borders with the narrative) and that contribute to their internal structuring into smaller units (turns for each change in speaker). The middle (dit-il, fait-il) and beginning (li rois li dist) reporting clauses are part of those marks. Their formal and functional characteristics are studied in a balanced diachronic corpus, the BFM medieval French corpus (9th-16th, 4.7 million words) using the systematic and exhaustive analysis tools provided by the TXM software. The study reveals two parallel changes. From a formal point of view, the middle and the beginning reporting clauses differentiate between the ninth and the end of the thirteenth century: the verbs which are used (faire and dire), the expression of the subject (mandatory or not, in a pronominal or nominal form), the order of constituents (SV or VS) are progressively no longer the same. From a functional point of view, the middle and the beginning reporting clauses specialize themselves more slowly and belatedly, the first in the markup of the alternation of speech turns, the second in the tagging of the entry in the episode of reported speech. Data interpretation allows us to propose a model of evolution of the middle and beginning reporting clauses in three phases (ninth - mid-twelfth century / mid twelfth - 1300 / 1300 - 1500). This model provides information on the evolution of two specific linguistic markers of reported speech and shows how the vernacular language develops its own “mark-up” system before the advent of print and modern typographic signs (quotation marks, dashes).; L’oral représenté peut se définir comme la restitution à l’écrit de paroles prononcées oralement. Dès les débuts du français, des séquences ou épisodes d’oral représenté sont insérés dans les textes. Tantôt monologiques, tantôt dialogiques, ces épisodes sont explicitement distincts du reste des textes grâce à un système de marques ou balises linguistiques. Nous nous intéressons dans cet article aux marques qui assurent la délimitation externe des épisodes (les frontières avec le récit), et qui contribuent à leur structuration interne en unités de plus petite taille (prises de parole à chaque changement de locuteur). L’incise (dit-il, fait-il) et l’annonce (li rois li dist) font partie de ces marques. Leurs caractéristiques formelles et fonctionnelles sont étudiées dans un corpus diachronique diversifié, la Base de français médiéval (ixe - xvie s., 4,7 millions de mots) à l'aide des outils d'analyse systématique et exhaustive du logiciel TXM. L’étude met en évidence deux changements parallèles. Du point de vue formel, l’incise et l’annonce se différencient entre le ixe et la fin du xiiie siècle : les verbes utilisés (faire et dire), l’expression du sujet (obligatoire ou non, sous forme pronominale ou nominale), l’ordre des constituants (SV ou VS) ne sont progressivement plus les mêmes. Du point de vue fonctionnel, l’incise et l’annonce se spécialisent plus lentement et plus tardivement, la première dans le marquage de l’alternance des tours de parole, la seconde dans le balisage de l’entrée dans l’épisode d’oral représenté. L’interprétation des données nous permet de proposer un modèle d’évolution de l’incise et de l’annonce en trois phases (ixe-mi xiie siècle / mi xiie-1300 / 1300-1500). Ce modèle nous renseigne sur l’évolution de deux marques linguistiques spécifiques à l’oral représenté et montre de quelle façon la langue vernaculaire développe son propre système de balisage avant qu’apparaissent l’imprimé et les signes typographiques modernes (guillemets, tirets).
- Published
- 2018
- Full Text
- View/download PDF
24. Diachronie de l’oral représenté
- Author
-
Guillot-Barbance, Céline, Heiden, Serge, Lavrentev, Alexei, and Pincemin, Bénédicte
- Subjects
16. Peace & justice - Abstract
Dans les textes médiévaux, l’incise et l’annonce assurent la délimitation externe (avec le récit) et la segmentation interne des séquences dialoguées. L’étude d’un corpus étendu (4,7 millions de mots) montre leur dissociation formelle et fonctionnelle et propose un modèle d’évolution en trois phases (IXe-1150/1150-1300/1300-1500)., In medieval texts, initial and interpolated reporting clauses ensure external delimitation (from the narrative) and internal segmentation of dialogical sequences. Research conducted on a 4.7 million word corpus shows their formal and functional dissociation and proposes a 3-phase model of evolution (9th c.–1150/1150–1300/1300–1500).
- Published
- 2018
- Full Text
- View/download PDF
25. Collective memory shapes the organization of individual memories in the medial prefrontal cortex
- Author
-
Gagnepain, Pierre, primary, Vallée, Thomas, additional, Heiden, Serge, additional, Decorde, Matthieu, additional, Gauvain, Jean-Luc, additional, Laurent, Antoine, additional, Klein-Peschanski, Carine, additional, Viader, Fausto, additional, Peschanski, Denis, additional, and Eustache, Francis, additional
- Published
- 2019
- Full Text
- View/download PDF
26. Chaînes de référence, structuration textuelle et genres textuels en diachronie : premières explorations du corpus Democrat
- Author
-
Decorde, Matthieu, Guillot, Céline, Heiden, Serge, Quignard, Matthieu, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., ANR-15-CE38-0008,DEMOCRAT,DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique(2015), Quignard, Matthieu, DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique - - DEMOCRAT2015 - ANR-15-CE38-0008 - AAPG2015 - VALID, École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), and École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 2017
27. Interoperable annotation of (co)references in the Democrat project
- Author
-
Grobol, Loïc, Landragin, Frédéric, Heiden, Serge, Automatic Language Modelling and ANAlysis & Computational Humanities (ALMAnaCH), Inria de Paris, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 (Lattice), Département Littératures et langage (LILA), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Cité (USPC)-Université Sorbonne Nouvelle - Paris 3, Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), ACL Special Interest Group on Computational Semantics (SIGSEM), ISO TC 37/SC 4 (Language Resources) WG 2, Harry Bunt, ANR-15-CE38-0008,DEMOCRAT,DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique(2015), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), Grobol, Loïc, DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique - - DEMOCRAT2015 - ANR-15-CE38-0008 - AAPG2015 - VALID, Université Sorbonne Paris Cité - - USPC2011 - ANR-11-IDEX-0005 - IDEX - VALID, Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage - ENS Paris (LILA), École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS-PSL), Université Paris sciences et lettres (PSL), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Lumière - Lyon 2 (UL2)-Université Jean Monnet [Saint-Étienne] (UJM)-Centre National de la Recherche Scientifique (CNRS)-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-École normale supérieure - Lyon (ENS Lyon)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020]), and Département Littératures et langage - ENS Paris (LILA)
- Subjects
[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,InformationSystems_INFORMATIONSTORAGEANDRETRIEVAL ,ACM: H.: Information Systems/H.3: INFORMATION STORAGE AND RETRIEVAL ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,ACM: I.: Computing Methodologies/I.7: DOCUMENT AND TEXT PROCESSING ,[SCCO.COMP]Cognitive science/Computer science ,corpus ,annotation encoding ,TEI ,coreference ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[SCCO.COMP] Cognitive science/Computer science ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
International audience; This paper proposes XML-TEI-URS, a generic TEI-based format for the annotation of coreferences in arbitrary corpora. This proposal is made in the context of Democrat, a French Agence Nationale de la Recherche project that aims to produce a large corpus of written French with coreference annotations, in an attempt to design a corpus that is usable both by humans and automated tools and as compatible as possible with future concurrent annotations.
- Published
- 2017
28. TXM = Unicode ⊃ XML ⊃ TEI + NLP + CQP + R ⇒ GUI: Multimodal text analysis and edition
- Author
-
Heiden, Serge
- Subjects
TXM ,text analysis ,XML ,TEI ,NLP ,Digital Humanities ,TheoryofComputation_ANALYSISOFALGORITHMSANDPROBLEMCOMPLEXITY ,GUI ,Multimodal ,ComputingMilieux_COMPUTERSANDEDUCATION ,Edition ,ESU DH 2017 ,Unicode ,CQP - Abstract
5th Lecture
- Published
- 2017
- Full Text
- View/download PDF
29. Collective memory shapes the organization of individual memories in the medial prefrontal cortex.
- Author
-
Gagnepain, Pierre, Vallée, Thomas, Heiden, Serge, Decorde, Matthieu, Gauvain, Jean-Luc, Laurent, Antoine, Klein-Peschanski, Carine, Viader, Fausto, Peschanski, Denis, and Eustache, Francis
- Published
- 2020
- Full Text
- View/download PDF
30. Génétique mémorielle. Shoah, mémoire et ADT
- Author
-
Pincemin, Bénédicte, Mayaffre, Damon, Heiden, Serge, Weyl, Philippe, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet - Saint-Étienne (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), BCL, équipe Logométrie : corpus, traitements, modèles, Bases, Corpus, Langage (UMR 7320 - UCA / CNRS) (BCL), Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Fondation pour la Mémoire de la Shoah (FMS), Equipex Matrice (http://www.matricememory.fr), Damon Mayaffre, Céline Poudat, Laurent Vanni, Véronique Magri, Peter Follette, Caroline Daire, Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., ANR-10-EQPX-0021,MATRICE,Outils de recherche pour l'analyse de la mémoire par la coopération internationale et les expérimentations. Entre mémoire individuelle et mémoire sociale: les outils et nécessités de l'innovation(2010), Mayaffre, Damon, École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-Université Jean Moulin - Lyon 3 (UJML), Université de Lyon-Université de Lyon-Université Blaise Pascal - Clermont-Ferrand 2 (UBP)-Université Jean Monnet [Saint-Étienne] (UJM)-Université Clermont Auvergne [2017-2020] (UCA [2017-2020])-Centre National de la Recherche Scientifique (CNRS), Université Côte d'Azur (UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Université Côte d'Azur (UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA), Fondation pour la mémoire de la Déportation (FMD), and Fondation pour la mémoire de la Déportation - FMD
- Subjects
logométrie ,[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,mémoire ,TXM ,[SHS.HIST] Humanities and Social Sciences/History ,[SHS.STAT] Humanities and Social Sciences/Methods and statistics ,Shoah ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,méthodologie textométrique ,[SHS.HIST]Humanities and Social Sciences/History ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
As part of the Matrix Équipex, we gather a corpus of testimonies from survivors of the Shoah, which is diachronic from the perspective of the time of writing: immediate testimonies written after the end of the war, median testimonies written in the 1980's and recent testimonies written in the 2000's. The objective is to make use of TDA tools to distinguish the primary vocabulary which could be directly inherited from the camps and a reconstructed vocabulary that includes, over the years, the historical understanding of an event which was unintelligible to contemporary victims. In a way, we don't practice text genetics but memory genetics within the texts of our corpus. Contrastive statistics allows us to deconstruct testimonies into distinct lexical sedimentations reflecting superimposed layers of memory., Dans le cadre de l'Équipex Matrice, nous rassemblons un corpus de témoignages de survivants de la Shoah, diachronique du point de vue de la date d'écriture : témoignages immédiats écrits à la sortie de la guerre, témoignages médians écrits dans les années 1980, et témoignages récents écrits dans les années 2000. L'objectif est de mobiliser les outils de l'ADT pour sérier le vocabulaire primaire sans doute hérité directement des camps et un vocabulaire reconstruit qui intègre, au fil des années, la compréhension historique d'un événement inintelligible aux victimes contemporaines. D'une certaine manière, il s'agit non pas de faire de la génétique de texte, mais de la génétique mémorielle au sein des textes, en déconstruisant les témoignages en sédimentations lexicales distinctes, traces de strates mémorielles superposées.
- Published
- 2016
31. Reengineering Akkadian Tablets with TEI and TXM for Linguistic Analysis
- Author
-
Béranger, Marine, Heiden, Serge, Lavrentiev, Alexei, Proche-Orient, Caucase, Iran : Diversités et Continuités (PROCLAC), Centre National de la Recherche Scientifique (CNRS)-Collège de France (CdF (institution))-École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL), Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., ANR-11-IDEX-0007,Avenir L.S.E.,PROJET AVENIR LYON SAINT-ETIENNE(2011), École Pratique des Hautes Études (EPHE), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Collège de France (CdF (institution))-Centre National de la Recherche Scientifique (CNRS), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), École pratique des hautes études (EPHE), Lavrentev, Alexey, and PROJET AVENIR LYON SAINT-ETIENNE - - Avenir L.S.E.2011 - ANR-11-IDEX-0007 - IDEX - VALID
- Subjects
Akkadian language ,TEI ,XML ,tablets corpus ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,cuneiform writing ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,linguistic analysis ,TXM tool - Abstract
International audience; This paper presents a project involving TEI encoding of Akkadian tablets for their further analysis with TXM software. The goal of the project is to analyze the vocabulary, spelling and syllabary of a corpus of Akkadian letters, to outline the different Mesopotamian scribal traditions and to understand the complexity of a letter’s writing. The corpus is currently composed of 350 letters written in the Old Babylonian dialect between 2002 BC and 1595 BC. All the letters have been transliterated in Latin characters following the standards established by the Archibab team (http://www.archibab.fr). The transcriptions (previously stored in a relational database) were encoded in TEI for this project. Every word is tagged with a element and annotated with @ana. The element surrounds every transliterated sign, using @ref for mapping to its Rykle Borger’s syllabary identification number and Unicode codepoint. The transcription also encodes damage and conjecture elements , , , , , etc. Special XSLT stylesheets were designed to preprocess the TEI source transcriptions for TXM import via a generic XML import module with tokenization at word or cuneiform character levels optimized for different kinds of queries. It is for example possible to compare different letters by their vocabulary or orthography according to various metadata parameters, to study the different (transliterated) values of the cuneiform signs that are not damaged on the clay tablet or to obtain a kwic concordance of the cuneiform signs that were erased by the scribe during the writing of the letter. Correspondence analysis allows identifying the vocabulary which is characteristic to a place of composition, a circumstance or a period, and visualizing the similarity or dissimilarity of the letters. A sample corpus will be made available under open license at the TXM demo portal (http://portal.textometrie.org/demo) by the time of the TEI conference.
- Published
- 2015
32. L'oral représenté dans un corpus de français médiéval (9e-15e) : approche contrastive et outillée de la variation diasystémique
- Author
-
Guillot, Céline, Heiden, Serge, Lavrentiev, Alexei, Pincemin, Bénédicte, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Kirsten Jeppesen Kragh, Jan Lindschouw, Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., Hans Goebl, and École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
textométrie ,discours direct ,oral représenté ,français médiéval ,variation ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,diachronie - Abstract
Notre étude se base sur un corpus de textes français composés entre le 9ème et le 15ème siècle et appartenant à différents domaines et traditions ou genres discursifs (domaine historique, didactique, religieux, littéraire ; genre du roman, de la chanson de geste, de la chronique, du lapidaire, etc.). Grâce à un repérage automatique et au balisage du discours direct dans ce corpus de textes, une première étude a été récemment menée sur la " grammaire " du discours direct - et ce en quoi elle diffère de la grammaire du récit
- Published
- 2015
33. Exploration textométrique du corpus des dossiers de Bouvard et Pécuchet
- Author
-
Lavrentiev, Alexei, Heiden, Serge, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., ANR-07-CORP-0009,BOUVARD,Les Dossiers de Bouvard et Pécuchet de Flaubert. Enrichissement, valorisation, documentation d'un corpus multi supports(2007), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Lavrentev, Alexey, and Corpus et outils de la recherche en sciences humaines et sociales - Les Dossiers de Bouvard et Pécuchet de Flaubert. Enrichissement, valorisation, documentation d'un corpus multi supports - - BOUVARD2007 - ANR-07-CORP-0009 - CORP - VALID
- Subjects
[SHS.LITT] Humanities and Social Sciences/Literature ,édition électronique ,Flaubert ,Bouvard et Pécuchet ,[SHS.LITT]Humanities and Social Sciences/Literature ,textométrie ,humanités numériques - Abstract
This paper presents an experience of creating and analyzing a corpus of Bouvard et Pécuchet files in the methodological and technological framework of textometry, which is completely different from that of the project where these files were produced. It shows the advantages of using an open and interdisciplinary encoding system that is provided by the XML standard and the guidelines of the Text Encoding Initiative Consortium (TEI), but also points out the limits due to the extreme variability of TEI encoding practices and to the difficulty of reconciling a very precise documentary representation of the primary sources encoding practice with identifying the semantic structures relevant for textometric analysis., [http://flaubert.univ-rouen.fr/revue/article.php?id=113] Cet article présente une expérience d'exploitation du corpus des dossiers de Bouvard et Pécuchet dans le cadre méthodologique et technologique de la textométrie, qui est très éloigné du projet d'origine. Il montre les possibilités offertes par l'usage d'un système d'encodage de sources textuelles ouvert et interdisciplinaire tel que proposé par le format standard XML et les recommandations du consortium de la Text Encoding Initiative (TEI), mais aussi les limites que posent l'extrême variabilité des pratiques d'encodage en TEI et la difficulté de concilier la représentation documentaire très précise de la source primaire avec la constitution de structures sémantiques pertinentes pour l'analyse textométrique.
- Published
- 2014
34. Interface hypertextuelle à un espace de cooccurrences : implémentation dans Weblex
- Author
-
Heiden, Serge, Heiden, Serge, and Gérard Purnelle, Cédrick Fairon, Anne Dister
- Subjects
concordance ,lexicogramme ,[SHS.STAT] Humanities and Social Sciences/Methods and statistics ,lexicogramme récursif ,hypertexte ,ComputingMilieux_MISCELLANEOUS ,Weblex ,cooccurrence - Published
- 2004
35. Capitalisation des savoirs par le web : une application de la TEI pour l'encodage et l'exploitation des textes de la Base de Français Médiéval
- Author
-
Heiden, Serge, Guillot, Céline, Heiden, Serge, Kunstmann, Pierre, Martineau, France, Forget, Danielle, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Kunstmann, Pierre, Martineau, France, Forget, Danielle, and École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[SHS.LITT] Humanities and Social Sciences/Literature ,[SHS.LITT]Humanities and Social Sciences/Literature ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,encodage ,français médiéval ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,analyse du discours ,TEI ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Les questions relatives à la mise sur le web de corpus d'ancien et de moyen français se sont présentées à nous lors du transfert des textes de la Base de Français Médiéval sur le site français de l'ATILF. Jusqu'à présent, les textes de la Base de Français Médiéval n'étaient pas accessibles sur la toile. Ils étaient exploités par l'intermédiaire de concordances, réalisées au moyen du logiciel ANALYSER de Pascal Bonnefois, mais leur accès restait réservé.Le transfert de ces textes et leur intégration dans la grande base FRANTEXT nous a donc fourni l'occasion de nous poser un certain nombre de questions méthodologiques. La transmission de données textuelles peut en effet s'envisager selon deux points de vue : on peut échanger des textes entre institutions ou collègues en laissant à chacun le choix des outils grâce auxquels ils les exploiteront, ou l'on peut accéder à des textes que l'on ne possède pas via une base de données interrogeable à distance. C'est le parti pris par les bases FRANTEXT et ARTFL notamment. Dans le cadre de notre accord avec l'ATILF, nous nous situons clairement dans le second cas de figure. Mais la question du mode de représentation des textes ne nous a pas paru secondaire pour autant. Nous présenterons, dans cet article, les modalités de représentation des textes utilisées nous garantissant un contrôle de la qualité des textes transmis à notre partenaire ainsi que de leur intégration dans notre propre outil d'analyse automatique WEBLEX.
- Published
- 2003
36. Analyzing TEI encoded texts with the TXM platform
- Author
-
Lavrentiev, Alexei, Heiden, Serge, Decorde, Matthieu, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., Lavrentev, Alexey, and École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
digital philology ,Textometry ,TEI ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
International audience; TXM (http://sf.net/projects/txm) is an open-source software platform providing tools for qualitative and quantitative content analysis of text corpora. It implements the textometric (formerly lexicometric) methods developed in France since the 1980s, as well as generally used tools of corpus search and statistical text analysis (Heiden 2010).TXM uses a TEI extension called “XML-TXM” as its native format for storing tokenized and annotated with NLP tools corpora source texts (http://sourceforge.net/apps/ mediawiki/txm/index.php?title=XML-TXM). The capacity to import and correctly analyze TEI encoded texts was one of the features requested in the original design of the platform.However, the flexibility of the TEI framework (which is its force) and the variety of encoding practices make it virtually impossible to work out a universal strategy for building a properly structured corpus (i.e. compatible with the data model of the search and analysis engines) out of an arbitrary TEI encoded text or group of texts. It should nevertheless be possible to define a subset of TEI elements that would be correctly interpreted during the various stages of the corpus import process (for example, the TEI-lite tag set), to specify the minimum requirements to the document structure and to suggest a mechanism for customization. This work is being progressively carried out by the TXM development team, but it can hardly be successful without an input from the TEI community.The goal of this paper is to present the way TXM currently deals with importing TEI encoded corpora and to discuss the ways to improve this process by interpreting TEI elements in terms of the TXM data model.
- Published
- 2013
37. Le discours direct au Moyen Âge : vers une définition et une méthodologie d'analyse
- Author
-
Guillot, Céline, Lavrentiev, Alexei, Pincemin, Bénédicte, Heiden, Serge, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Dominique Lagorgette, Pierre Larrivée, Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., and École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
oral représente ,français médiéval ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,diachronie - Abstract
De nombreuses recherches menées en parallèle dans un cadre linguistique ont montré que la dichotomie entre oral et écrit était trop simple : d'une part, il est certainement plus approprié d'établir un continuum entre ces deux pôles, d'autre part il convient d'établir des catégories plus fines et plus précises, en distinguant plusieurs types d'oral et d'écrit et en dissociant le canal par lequel se fait la communication et le mode de conception du message lui-même. La recherche dont les premiers résultats sont présentés dans cet article repose sur l'exploration outillée d'un corpus de textes médiévaux. Fondée sur une approche contrastive des données, elle s'articule autour de trois grandes questions : 1) Quel accès pouvons-nous avoir à l'oral et à quelle(s) forme(s) d'oral au Moyen Age ? 2) Quelle relation peut-on établir entre le discours direct et l'oral représenté dans les documents médiévaux ? 3) Le discours direct présente-t-il une grammaire spécifique ? Le présent article propose une méthodologie empirique qui permette d'aborder ces différents points. Premièrement, il s'agit de décrire la façon dont le corpus enrichi permettant d'étudier le discours direct de manière contrastive a été élaboré et de présenter la méthodologie d'analyse et les outils utilisés. Les premiers résultats tirés de l'exploitation du corpus sont exposés dans une seconde section.
- Published
- 2013
38. Lectures assistées de l'Encyclopédie électronique : Philologic et Weblex
- Author
-
Heiden, Serge, Lafon, Pierre, Heiden, Serge, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), and École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
linguistique - Abstract
Communication au colloque : L'encyclopédie en ses nouveaux atours. Paris VII, novembre 2000
- Published
- 2002
39. Lexicométrie textuelle, sens et stratégie discursive
- Author
-
Heiden, Serge, Tournier, Maurice, Institut national de la langue française (INALF), Université Nancy 2-Centre National de la Recherche Scientifique (CNRS), Heiden, Serge, INALF, and Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
élections présidentielles ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[SHS.SCIPO]Humanities and Social Sciences/Political science ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,France ,lexicométrie ,texte politique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.SCIPO] Humanities and Social Sciences/Political science ,stratégie discursive ,vocabulaire ,cooccurrences - Abstract
A partir du corpus des "face-à-faces" télévisés de deux élections présidentielles françaises, l'analyse lexicométrique des couples de mots en cooccurrence et ses représentations graphiques par ordinateur mettent en regard les principaux liens statistiques qui affectent les vocabulaires des quatre candidats (Mitterrand contre Chirac en 1988, puis Chirac contre Jospin en 1995). Leur comparaison montre l'importance de la stratégie discursive dans le choix et la mise en contexte des mots au sein des phrases.
- Published
- 2001
40. Constructing Analytic Data Categories for Corpus Analysis from TEI encoded sources
- Author
-
Lavrentiev, Alexei, Heiden, Serge, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., Lavrentev, Alexey, and École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,TXM ,analytic data categories ,textometry ,TEI ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,GeneralLiterature_REFERENCE(e.g.,dictionaries,encyclopedias,glossaries) ,ComputingMilieux_MISCELLANEOUS ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Extended abstract available at the conference website: http://idhmc.tamu.edu/teiconference/program/papers/
- Published
- 2012
41. The TXM Portal Software giving access to Old French Manuscripts Online
- Author
-
Lavrentiev, Alexei, Heiden, Serge, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), and Lavrentev, Alexey
- Subjects
tokenizer ,ancien français ,textométrie ,Old French ,textometry ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,synoptic edition ,édition synoptique ,TEI ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,tokeniseur ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Texte intégral en ligne : http://www.lrec-conf.org/proceedings/lrec2012/workshops/13.ProceedingsCultHeritage.pdf; International audience; http://www.lrec-conf.org/proceedings/lrec2012/workshops/13.ProceedingsCultHeritage.pdf This paper presents the new TXM software platform giving online access to Old French Text Manuscripts images and tagged transcriptions for concordancing and text mining. This platform is able to import medieval sources encoded in XML according to the TEI Guidelines for linking manuscript images to transcriptions, encode several diplomatic levels of transcription including abbreviations and word level corrections. It includes a sophisticated tokenizer able to deal with TEI tags at different levels of linguistic hierarchy. Words are tagged on the fly during the import process using IMS TreeTagger tool with a specific language model. Synoptic editions displaying side by side manuscript images and text transcriptions are automatically produced during the import process. Texts are organized in a corpus with their own metadata (title, author, date, genre, etc.) and several word properties indexes are produced for the CQP search engine to allow efficient word patterns search to build different type of frequency lists or concordances. For syntactically annotated texts, special indexes are produced for the Tiger Search engine to allow efficient syntactic concordances building. The platform has also been tested on classical Latin, ancient Greek, Old Slavonic and Old Hieroglyphic Egyptian corpora (including various types of encoding and annotations).
- Published
- 2012
42. Méthode des cooccurrences : recherche sémantique sur le nom propre
- Author
-
Heiden, Serge, Chetouani, Lamria, Analyses de corpus linguistiques, usages et traitements (ANACOLUT), Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Institut universitaire de formation des maîtres - Bretagne (IUFM Bretagne), Université de Brest (UBO), and Heiden, Serge
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,concordances ,nom propre ,discours sémantique ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,hypertexte ,lexicogrammes ,statistique textuelle ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,cooccurrences - Abstract
This research is interested in the proper noun. The objective is to determine the variety of employment and the lexical context which give meaning to the proper noun in discourse.Our implementation of the method of co-occurrences rests on an hypertextual interface. This interface optimises the permanent comings and goings between the reading of listings of co-occurrents words and between the validation in context of their affective attraction by kwic concordances. The listings, called lexicograms, show simultaneously a particular word with the two lists of its left and right co-occurrents. Those lists are sorted by the probability that a word should meet the particular one the number of times found in the corpus and even more., Cette recherche s'intéresse au nom propre. L'objectif est de déterminer, la variété de ses emplois et des entourages lexicaux qui lui donnent du sens dans le discours.Notre mise en œuvre de la méthode des cooccurrences repose sur une interface hypertextuelle, optimisant le va-et-vient permanent entre l'analyse du classement statistique des couples de formes cooccurrentes à l'intérieur des phrases, et la validation en contexte de ces attirances par la lecture des concordances de ces couples dans le texte. Les synthèses d'attirances de formes se présentent sous la forme de lexicogrammes affichant simultanément une forme pôle choisie et ses cooccurrents gauches et droits classés par la probabilité qu'ils se rencontrent le nombre de fois constaté effectivement dans le corpus ou plus.
- Published
- 2000
43. Guide de transcription d'entretien avec Transcriber pour TXM
- Author
-
Heiden, Serge, Pincemin, Bénédicte, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., and École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,interview transcription guidelines - Abstract
Ce guide a été construit en reprenant de très larges proportions du « Manuel du transcripteur » pour le logiciel Transcriber situé à l'adresse : http://trans.sourceforge.net/en/transguidFR.php, et en l'adaptant aux spécificités de la transcription d'entretiens pour TXM.Il a été écrit dans le cadre de la campagne d'entretiens du Master 1 «Systèmes Territoriaux, Développement durable et Aide à la décision », MODULE 29 bis : Méthodes et outils : la production scientifique (perfectionnement), GEO020, lors de sa première édition en 2010.Il couvre les aspects suivants : formats des fichiers audio conseillés, maniement de Transcriber, conventions de transcription orthographiques, raccourcis clavier, utilisation des informations de transcription dans TXM.
- Published
- 2011
44. Maîtriser les déluges de données hétérogènes
- Author
-
Heiden, Serge, Lafon, Pierre, Illouz, Gabriel, Habert, Benoît, Fleury, Serge, Folch, Helka, Analyses de corpus linguistiques, usages et traitements (ANACOLUT), Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris-Sud - Paris 11 (UP11)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE), Condamines, Anne, Fabre, C., Péry-Woodley, M. P., Heiden, Serge, Condamines, Anne, Fabre, C., Péry-Woodley, M. P., Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), and Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11)
- Subjects
analyses quantitatives de données textuelles ,informatique appliquée ,textométrie ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,linguistique informatique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,linguistique de corpus ,analyse de données textuelles ,typologie des données textuelles ,lexicométrie ,traitement automatique de la langue naturelle ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilité de corpus, ni même leur taille, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l'hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d'une telle hétérogénéité pour l'étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de "profilage de corpus" par le biais d'outils permettant d'évaluer l'homogénéité d'un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) et l'utilisation qui peut en être faite.
- Published
- 1999
45. TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement
- Author
-
Heiden, Serge, Magué, Jean-Philippe, Pincemin, Bénédicte, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Sergio Bolasco, Isabella Chiari, Luca Giuliano, Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., ANR-06-CORP-0029,TEXTOMETRIE,Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte(2006), ANR-07-CORP-0015,CORPTEF,Corpus représentatif des premiers textes français(2007), ANR-08-FRAL-0006,SRCMF,Corpus syntaxique de référence pour le français médiéval(2008), ANR-10-EQPX-0021,MATRICE,Outils de recherche pour l'analyse de la mémoire par la coopération internationale et les expérimentations. Entre mémoire individuelle et mémoire sociale: les outils et nécessités de l'innovation(2010), ANR-11-IDEX-0007,Avenir L.S.E.,Advanced Studies on Language Complexity(2011), ANR-12-CORP-0010,ORIFLAMMS,Recherche en ontologie, Descripteurs d'images, Analyse des formes et lettres des écritures médiévales multilingues(2012), ANR-14-FRAL-0006,PaLaFra,Le PAssage du LAtin au FRAnçais: constitution et analyse d'un corpus numérique latino-français(2014), ANR-15-CE38-0008,DEMOCRAT,DEscription et MOdélisation des Chaînes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique(2015), ANR-16-CE38-0010,PROFITEROLE,Modélisation de l'évolution de la langue à partir de textes d'ancien français instrumentés(2016), ANR-17-CE38-0010,ANTRACT,Analyse Transdisciplinaire des Actualités filmées (1945-1969)(2017), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), and ANR-11-IDEX-0007,Avenir L.S.E.,PROJET AVENIR LYON SAINT-ETIENNE(2011)
- Subjects
[STAT.AP]Statistics [stat]/Applications [stat.AP] ,[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,analyse statistique ,textométrie ,moteur de recherche plein texte ,full text search engine ,grails framework ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,statistical analysis ,tal ,framework grails ,eclipse rcp ,textometry ,[INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL] ,natural language processing ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,traitement automatique de la langue ,open-source ,xml-tei - Abstract
International audience; The research project Federation and Research Developments in Textometry around the creation of an Open- Source Platform distributes its XML-TEI encoded corpus textometric analysis platform online. The design of this platform is based on a synthesis of features of existing textometric software. It relies on identifying the open-source software technology available and effectively processing digital resources encoded in XML and Unicode, and on a state of the art of open-source full-text search engines on structured and annotated corpora. The architecture is based on a Java toolkit component articulating a search engine (IMS CWB), a statistical computing environment (R) and a module for importing XML-TEI encoded corpora. The platform is distributed as an open-source toolkit for developers and in the form of two applications for end users of textometry: a local application to install on a workstation (Windows or Linux) and an online web application. Still early in its development, the platform implements at present only a few essential features, but its distribution in open-source already allows an open community development. This should facilitate its development and integration of new models and methods.; Le projet de recherche Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte diffuse sa plateforme d'analyse textométrique de corpus XML-TEI en ligne. La conception de cette plateforme repose sur une synthèse des fonctionnalités des logiciels de textométrie existants. Elle s'appuie sur le recensement des technologies logicielles open-source disponibles et efficaces pour manipuler des ressources numériques XML et Unicode, et sur un état de l'art des moteurs de recherche en texte intégral sur corpus structurés et étiquetés. L'architecture consiste en une boîte à outils Java articulant un composant moteur de recherche (IMS CWB), un environnement de calcul statistique (R) et un module d'importation de corpus XML-TEI. La plateforme est diffusée sous la forme d'une boite à outils en open-source pour les développeurs informatique mais également sous la forme de deux applications pour les utilisateurs finaux de la textométrie : une application à installer sur un poste local (Windows ou Linux) et une application web accessible en ligne. Encore au début de son développement, la plateforme n'implémente à l'heure actuelle que quelques fonctionnalités essentielles, mais sa diffusion en open-source autorise un développement communautaire ouvert. Cela doit faciliter son évolution et l'intégration de nouveaux modèles et méthodes.
- Published
- 2010
46. TEI P5 Manuscript Transcriptions as a Resource for Linguistic Research
- Author
-
Lavrentiev, Alexei, Heiden, Serge, Lavrentev, Alexey, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., and École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
digital philology ,linguistique de corpus ,ancien français ,corpus linguistics ,Old French ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,TEI ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,philologie numérique - Published
- 2010
47. Fonctionnalités textométriques : proposition de typologie selon un point de vue utilisateur
- Author
-
Pincemin, Bénédicte, Heiden, Serge, Lay, Marie-Hélène, Leblanc, Jean-Marc, Viprey, Jean-Marie, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Formes et Représentations en Linguistique et Littérature (FORELL-EA3816), Université de Poitiers, Centre d'Etudes des discours, Images, Textes, Ecrits, Communications (CEDITEC), Université Paris-Est Créteil Val-de-Marne - Paris 12 (UPEC UP12), Centre Jacques-Petit - Archives, Textes et Science des Textes (ATST), Université de Franche-Comté (UFC), Université Bourgogne Franche-Comté [COMUE] (UBFC)-Université Bourgogne Franche-Comté [COMUE] (UBFC), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), and Pincemin, Bénédicte
- Subjects
textométrie ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,typologie - Abstract
In the field of textometry, every text analysis software offers its own set of functionalities. Although these functionalities originate in common ideas, their implementations and their names may differ. It is therefore impossible to compile a comprehensive and synthetic list of functionalities straight, or to draw a direct comparison between softwares. This paper sets a structured overview of textometric metafunctionalities. Each of them addresses a type of textual research: text reading and browsing (through different views), listing of units (typically words) with quantitative information, looking at the positions of units in the corpus, paradigmatic and syntagmatic linking of units, texts or properties. This functional typology covers the whole range of textometric processing, from context and parameters initialization to results management and analysis. This typology was elaborated in order to design a new textometric software (project ANR-06-CORP-029). It may also be used to introduce to textometric functionalities, or to characterize software., Chaque logiciel de textométrie donne accès à un certain nombre de calculs. Mais en l’état actuel, l’inventaire synthétique des fonctionnalités, comme la comparaison des logiciels au plan fonctionnel, ne sont pas possibles directement, car, malgré des parentés d’approche, les calculs sont rarement strictement identiques et l’usage des noms désignant les fonctionnalités n’est pas uniforme. Cette communication propose un recensement large et structuré des fonctionnalités de calcul textométriques en métafonctionnalités, correspondant chacune à un type de questionnement du corpus : lecture du texte (selon différents modes complémentaires), inventaires et décomptes d’unités (typiquement, de mots), étude de la position d’unités dans le corpus, associations syntagmatiques ou paradigmatiques d’unités, de textes, ou de propriétés. La typologie s’étend en amont des calculs aux fonctionnalités de mise en place de l’environnement d’interrogation, et en aval aux fonctionnalités de gestion et d’aide à l’analyse des résultats des calculs. Cette typologie a été mise au point pour la conception d’une nouvelle plateforme textométrique (projet ANR-06-CORP-029). Elle peut également être utile pour présenter un panorama des possibilités d’analyse textométrique, ainsi que pour situer différents logiciels au plan fonctionnel.
- Published
- 2010
48. The TextometrieR package: textual data analysis for social sciences and humanities
- Author
-
Loiseau, Sylvain, Magué, Jean-Philippe, Heiden, Serge, Lexiques, Dictionnaires, Informatique (LDI), Université Paris 13 (UP13)-Université de Cergy Pontoise (UCP), Université Paris-Seine-Université Paris-Seine-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS), Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Université Sorbonne Paris Cité (USPC)-Université de Cergy Pontoise (UCP), Université Paris-Seine-Université Paris-Seine-Université Paris 13 (UP13)-Centre National de la Recherche Scientifique (CNRS), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), and ICAR, Référent HAL
- Subjects
Corpus linguistics ,Textual data analysis ,Textometry ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Statistics in the Social and Political Sciences - Published
- 2009
49. Actes/Proceedings. JADT (Journées internationales d'analyse statistique des données textuelles)
- Author
-
Heiden, Serge, Pincemin, Bénédicte, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), région Rhône-Alpes : Direction de l'Enseignement Supérieur - aide à l'édition d'Actes, région Rhône-Alpes : Clusters de recherche - Cluster 13, BQR Conseil Scientifique ENS-LSH, CNRS, conseil régional du Rhône, Entreprise Le Sphinx Développement, and ANR-06-CORP-0029,TEXTOMETRIE,Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte(2006)
- Subjects
Enquêtes sociologiques ,[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,Statistical methods ,Linguistique -- Informatique -- CongrèsLexicométrie ,Langage naturel ,Computational linguistics ,Traitement du (informatique) -- Congrès ,Analyse des données ,Discourse analysis - Abstract
Ce volume contient les Actes des 9es Journées internationales d'Analyse statistique des Données Textuelles (JADT 2008) qui se sont déroulées du 12 au 14 mars 2008 à Lyon. Les JADT réunissent tous les deux ans, depuis 1990, des chercheurs travaillant dans les différents domaines concernés par les traitements automatiques et statistiques de données textuelles. Statisticiens, linguistes, sociologues, spécialistes d'analyse du discours, informaticiens, spécialistes de fouille des textes présentent leurs résultats, confrontent leurs outils et leurs expériences ; ils soumettent et discutent des propositions pratiques innovantes comme des développements théoriques de pointe. Après les rencontres de Barcelone (1990), Montpellier (1993), Rome (1995), Nice (1998), Lausanne (2000), Saint-Malo (2002), Louvain-la-Neuve (2004) et Besançon (2006), l'édition 2008 de la conférence a été l'occasion de lancer un appel à communications sur les thématiques non exhaustives suivantes : - Textométrie, statistique textuelle - Analyse exploratoire de données textuelles - Corpus de textes, représentations textuelles et hypertextuelles - Linguistique de corpus - Traitement automatique du langage naturel : étiquetage, lemmatisation, enrichissement linguistique - Analyse statistique de réponses à des questions ouvertes - Fouille de données textuelles (text mining) - Classification de textes, cartographie lexicale et textuelle - Recherche documentaire, recherche d'informations - Edition outillée de textes numériques - Logiciels pour l'analyse textuelle - Méthodologie et usages en analyse de corpus de textes - Formation aux méthodes et aux outils d'analyse de corpus de textes Sur les 140 soumissions reçues (dans les quatre langues de travail : français, italien, anglais, espagnol), 76 communications orales et 26 affichées ont été retenues. Chaque soumission a été relue par au moins deux relecteurs. Parmi les communications retenues par la première évaluation, 24% ont été soumises à une deuxième relecture. Les communications orales ont finalement été réunies en session selon les thématiques suivantes : - Unités lexicales, segmentation - Lemmatisation et annotation - Cooccurrences - Séquentialité et structure textuelle - Classification lexicale - Catégorisation de textes - Visualisation, évaluation - Modèle de données, architecture - Corpus parallèles - Édition critique - Alignement - Nouvelles formes de textualité - Corpus politiques - Corpus oraux - Enquêtes et entreprises - Enquêtes et société - Entretiens - Méthodologie - Position énonciative - Style, diachronie - Sémantique lexicale - Terminologie et traductologie - Fouille de données - Recherche d'information
- Published
- 2008
50. Constitution et exploitation des corpus d’ancien français et de moyen français
- Author
-
Guillot, Céline, Heiden, Serge, Lavrentiev, Alexei, Marchello-Nizia, Christiane, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Guillot-Barbance, Céline, and École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Diachrony of French ,Corpus Linguistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 2008
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.