37 results on '"Michel Jacobson"'
Search Results
2. The Impact of FAIR Principles on Scientific Communities in (Digital) Humanities. An Example of French Research Consortia in Archaeology, Ethnology, Literature and Linguistics.
- Author
-
Adeline Joffres, Nicolas Larrousse, Stéphane Pouyllau, Olivier Baude, Fatiha Idmhand, Xavier Rodier, Véronique Ginouvès, and Michel Jacobson
- Published
- 2018
3. Contribuer au progrès solidaire des recherches et de la documentation : la Collection Pangloss et la Collection AuCo (Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection).
- Author
-
Alexis Michaud, Severine Guillaume, Guillaume Jacques, Duang-Khoa Mác, Michel Jacobson, Thu-Hà Phám, and Matthew Deo
- Published
- 2016
4. Interoperability of audio corpora : the case of the French corpora.
- Author
-
Olivier Baude, Michel Jacobson, Atanas Tchobanov, and Richard Walter
- Published
- 2006
5. Corpus de la parole.
- Author
-
Michel Jacobson and Olivier Baude
- Published
- 2011
6. Linguistic documents synchronizing sound and text.
- Author
-
Michel Jacobson, Boyd Michailovsky, and John B. Lowe
- Published
- 2001
- Full Text
- View/download PDF
7. Long term preservation of TEI Corpora
- Author
-
Nicolas Larrousse, Michel Jacobson, Huma-Num : la TGIR des humanités numériques (Huma-Num), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), and Larrousse, Nicolas
- Subjects
[SHS.STAT]Humanities and Social Sciences/Methods and statistics ,Digital humanities ,Political science ,[SHS.STAT] Humanities and Social Sciences/Methods and statistics ,Library science ,Center (algebra and category theory) ,Term (time) - Abstract
International audience; This paper will present the implementation of TEI as an archival format done by the French research infrastructure dedicated to Social Science and Humanities, Huma-Num, liaising the TEI community and their practices with the staff of the preservation center[5] and their technical and archival needs.
- Published
- 2020
8. 'Un Manuscrit Naturellement' Rescuing a library buried in digital sand
- Author
-
Nicolas Larrousse, Christophe Jacobs, Michel Jacobson, Gilles Kagan, Joël Marchand, Cyril Masset, Huma-Num : la TGIR des humanités numériques (Huma-Num), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Institut de recherche et d'histoire des textes (IRHT), Centre National de la Recherche Scientifique (CNRS), and Larrousse, Nicolas
- Subjects
[INFO.INFO-GL]Computer Science [cs]/General Literature [cs.GL] ,[SHS] Humanities and Social Sciences ,[INFO.INFO-GL] Computer Science [cs]/General Literature [cs.GL] ,ComputingMilieux_MISCELLANEOUS ,[SHS]Humanities and Social Sciences - Abstract
International audience
- Published
- 2019
9. 1. Annotating oral corpora
- Author
-
Paola Pietrandrea, Gabriel Bergounioux, and Michel Jacobson
- Published
- 2018
- Full Text
- View/download PDF
10. Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection
- Author
-
Alexis Michaud, Séverine Guillaume, Guillaume Jacques, Đăng-Khoa Mạc, Michel Jacobson, Thu-Hà Phạm, Matthew Deo, International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Vietnam National University [Hanoï] (VNU), Projet DO-RE-MI-FA, financé par la Bibliothèque Scientifique Numérique au titre de la numérisation du patrimoine scientifique de l'enseignement supérieur et de la recherche, Association Francophone de la Communication Parlée, ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), and ANR-10-LABX-0083,EFL,Empirical Foundations of Linguistics : data, methods, models(2010)
- Subjects
diversité linguistique ,language archives ,archives orales ,phonetic research ,endangered documentation ,documentation en danger ,under-resourced languages ,open archives ,language documentation ,langues peu dotées ,linguistic diversity ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,recherches phonétiques ,archives ouvertes - Abstract
International audience; This talk sets out the scientific goals and achievements of two collections hosted by the Cocoon Open Archive of oral resources: the Pangloss Collection, which mainly focuses on unwritten languages from all areas in the world ; and the AuCo Collection, which is dedicated to languages of Vietnam and neighbouring countries. The aim is to contribute to joint progress in language documentation and in research. Emphasis is placed on the perspectives for phonetic/phonological research that are opened by some recent achievements in the framework of these two Collections.; La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L'objectif est un progrès solidaire des recherches et de la documentation linguistique. L'accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections.
- Published
- 2016
11. La question de l'archivage des données de la recherche en SHS (Sciences Humaines et Sociales)
- Author
-
Michel Jacobson, Nicolas Larrousse, Marion Massol, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), Huma-Num : la TGIR des humanités numériques (Huma-Num), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Centre Informatique National de l'Enseignement Supérieur (CINES), CINES, and Jacobson, Michel
- Subjects
[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,archivage numérique ,[SHS] Humanities and Social Sciences ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,pérennisation de l'information numérique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,[SHS]Humanities and Social Sciences - Abstract
Aujourd'hui les données de la recherche sont produites nativement sous forme numérique ou proviennent de la numérisation de données analogiques. Paradoxalement, le numérique dissociant l'information de son support, il se révèle plus complexe à gérer et la prise de conscience de la difficulté à pérenniser cette nouvelle forme d'information est très récente. Dans le cadre de la mise en place d'une infrastructure pour les Sciences Humaines et Sociales par la TGIR Huma-Num, une organisation s'appuyant sur les ressources du CINES (Centre Informatique National de l'Enseignement Supérieur) a été mise en place pour assurer l'archivage à long terme des données produites dans ce domaine. A la suite d'une première étude, un projet pilote a porté sur les données orales jugées représentatives des différents cas de figure pouvant se présenter dans les SHS. Ce projet pilote s'est déroulé sur une période de deux ans et a nécessité une évolution du système d'archivage numérique du CINES afin de prendre en compte les spécificités métier des SHS. Parallèlement, un travail de coordination a été effectué avec le SIAF (Service Interministériel des Archives de France) pour tenir compte des aspects propres au statut d'archives publiques de ces données. L'organisation mise en place durant le projet pilote, conformément au modèle OAIS (Open Archival Information System - norme ISO 14721), est dorénavant opérationnel et représente un cas original d'archivage des données de la recherche en SHS.
- Published
- 2014
12. Le standard d'échange de données pour l'archivage : du standard à la norme
- Author
-
Michel Jacobson and Jacobson, Michel
- Subjects
[SHS.INFO.INGE] Humanities and Social Sciences/Library and information sciences/domain_shs.info.inge ,archivage numérique ,medona ,seda ,modélisation - Abstract
Retours d'expériences sur la mise en oeuvre du standard d'échange de données pour l'archivage (Seda). Les différentes révisions du standard jusqu'à la publication de la norme Z 44-022 ou Medona (Modélisation de données pour l'archivage)
- Published
- 2014
13. L'archivage de la matrice cadastrale numérique : réflexions sur la qualité des données et de la documentation
- Author
-
Michel Jacobson, Françoise Banat-Berger, Jacobson, Michel, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), and Association des archivistes français
- Subjects
format de représentation ,métadonnées ,[SHS.INFO.GEST] Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,[SHS.INFO.GEST]Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,ComputingMilieux_MISCELLANEOUS - Abstract
National audience
- Published
- 2013
14. Corpus de la parole : collecte, catalogage, conservation et diffusion des ressources orales sur le français et les langues de France
- Author
-
Michel Jacobson, Olivier Baude, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Jacobson, Michel, Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), and Baude, Olivier
- Subjects
oral ,OAIS ,Oral corpora ,[SHS] Humanities and Social Sciences ,Corpus de la parole ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,archives ouvertes ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Corpus oral ,open archives ,[SHS]Humanities and Social Sciences ,Langues de France - Abstract
"Corpus de la parole" is a collaborative project between the Ministry of Culture of France and the CNRS, which aims to build a collection of resources on French and other languages of France. A Web site provides an editorialised access to this collection. This article presents the main points of the organization of this program: the data collection, the access, dissemination and sustainability aspects of the digital data., Le programme « Corpus de la parole » est un projet en collaboration entre le ministère de la Culture et de la Communication et le CNRS qui vise à constituer une collection de ressources orales sur le français et les langues de France. Un portail Web offre un accès éditorialisé à cette collection. Cet article présentera les points principaux de l'organisation de ce programme, de la collecte des corpus aux aspects de pérennisation en passant par l'accès et la diffusion des données numériques.
- Published
- 2011
15. Sharing data in small and endangered languages: Cataloging and metadata, formats, and encodings
- Author
-
Michel Jacobson, Nick Thieberger, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), Lenore A. Grenoble, and N. Louanna Furbee
- Subjects
Metadata ,World Wide Web ,Computer science ,Publishing ,business.industry ,Endangered species ,Library science ,Cataloging ,Permission ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,business ,under-resourced languages - Abstract
International audience; Speakers of small or 'under-resourced' languages often first contact the world of information Technology via the effort of field linguists. Good practices in linguistic data management include the separation of structure and content and of data and metadata formats. Primary outputs of field research (lexicon, transcripts and interlinear glossed text collections, and their associated media) need to be coded and preserved. Long-term access to these data is addressed by the establishment of archives that also act as the locus for training and advocacy for well-formed data. In this paper we discuss two such archives, one in Australia, the Pacific and Regional Archive for Digital Sources in Endangered Cultures (PARADISEC), and the other in France, the "Archiving Project" from the LACITO/CNRS.
- Published
- 2010
- Full Text
- View/download PDF
16. Spoken Corpora Good Practice Guide 2006
- Author
-
Olivier Baude, Claire Blanche-Benveniste, Marie-France Calas, Paul Cappeau, Pascal Cordereix, Laurence Goury, Michel Jacobson, Isabelle de Lamberterie, Christiane Marchello-Nizia, Lorenza Mondada, Centre Orléanais de Recherches en Anthropologie et Linguistique (CORAL), Université d'Orléans (UO), École Pratique des Hautes Études (EPHE), Université Paris sciences et lettres (PSL), DMF, Ministère de la Culture et de la Communication (MCC), Formes et Représentations en Linguistique et Littérature (FORELL-EA3816), Université de Poitiers, Bibliothèque nationale de France, Département de l'Audiovisuel (BnF_AUD), Ministère de la Culture et de la Communication (MCC)-Bibliothèque Nationale de France, Centre d'Études des Langues Indigènes d'Amérique (CELIA), Institut de Recherche pour le Développement (IRD)-Institut National des Langues et Civilisations Orientales (Inalco)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS), Service interministériel des archives de France (SIAF), Centre d'études sur la coopération juridique internationale (CECOJI), Université de Poitiers-Centre National de la Recherche Scientifique (CNRS), Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), ANR-10-LABX-0081,ASLAN,Advanced Studies on Language Complexity(2010), ANR-11-IDEX-0007,Avenir L.S.E.,PROJET AVENIR LYON SAINT-ETIENNE(2011), Bibliothèque nationale de France, Département Son, Vidéo, Multimédia (BnF_AUD), École pratique des hautes études (EPHE), Centre d'études sur la cooperation juridique internationale (CECOJI), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), and Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR).
- Subjects
Spoken corpora ,Spoken language corpus ,Spoken language ,Linguistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme "Investissements d'Avenir" (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR).; International audience; There is currently a vast amount of fundamental or applied research, which is based on the exploitation of oral corpora (organized recorded collections of oral and multimodal language productions). Created as a result of linguists becoming aware of the importance to ensure the durability of sources and a diversified access to the oral documents they produce, this Guide to good practice mainly deals with “oral corpora”, created for and used by linguists. But the questions raised by the creation and documentary exploitation of these corpora can be found in numerous disciplines: ethnology, anthropology, sociology, psychology, demography, oral history notably use oral surveys, testimonies, interviews, life stories. Based on a linguistic approach, this Guide also touches on the preoccupations of other researchers who use oral corpora (for example in the field of speech synthesis and recognition), even if their specific needs aren’t consistently dealt with in the present document.; Il existe actuellement un grand nombre de recherches fondamentales ou appliquées qui s'appuient sur l'exploitation de corpus oraux (collections organisées et enregistrées de productions linguistiques orales et multimodales). Né de la prise de conscience des linguistes de l'importance d'assurer la pérennité des sources et un accès diversifié aux documents oraux qu'ils produisent, ce Guide de bonnes pratiques traite principalement des "corpus oraux", créés pour et utilisés par les linguistes. Mais les questions soulevées par la création et l'exploitation documentaire de ces corpus se retrouvent dans de nombreuses disciplines : ethnologie, anthropologie, sociologie, psychologie, démographie, histoire orale utilisent notamment les enquêtes orales, les témoignages, les entretiens, les récits de vie. Basé sur une approche linguistique, ce guide aborde également les préoccupations d'autres chercheurs qui utilisent des corpus oraux (par exemple dans le domaine de la synthèse et de la reconnaissance vocale), même si leurs besoins spécifiques ne sont pas systématiquement traités dans le présent document.
- Published
- 2010
17. Propositions pour le catalogage des données sur les langues en contact
- Author
-
Michel Jacobson, Emmanuel Schang, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
corpus oraux ,langues en contact ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 2008
18. Corpus oraux et normalisation
- Author
-
Michel Jacobson, Jacobson, Michel, Service interministériel des archives de France (SIAF), and Ministère de la Culture et de la Communication (MCC)
- Subjects
corpus oraux ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 2008
19. Le modèle du Linked Open Data appliqué à des ressources orales
- Author
-
Olivier Baude and Michel Jacobson
- Subjects
lcsh:Social Sciences ,lcsh:H - Abstract
Afin de faciliter la réutilisation de corpus oraux par des personnes étrangères à leur collecte, les producteurs ainsi que les gestionnaires (documentalistes, archivistes, etc.) de ces corpus, doivent les organiser et les documenter. Jusqu’à récemment, la réutilisation de ces données était principalement envisagée sous les angles du droit des utilisateurs et de l’interopérabilité entre les machines et entre les logiciels. Depuis le début des années 2000, avec l’arrivée des technologies du « web sémantique » et plus récemment encore avec le mouvement du « Linked Open Data » (LOD), l’interopérabilité est aussi appréhendée au niveau sémantique. Les vocabulaires, ontologies, référentiels disponibles dans différents secteurs permettent aujourd’hui d’envisager d’autres pratiques de documentation. Enfin, les modèles de diffusion ou de mise à disposition des données du LOD ouvrent la porte à de nouvelles organisations pour la gestion de l’information. Nous discuterons de ces nouvelles orientations à travers un retour d’expérience de la plateforme de gestion de corpus oraux Cocoon (Collections de corpus oraux numériques). Seront discutés plus particulièrement les raisons des évolutions dans son modèle de données, ainsi que les avantages fonctionnels que cette plateforme entend tirer du LOD.
- Published
- 2016
- Full Text
- View/download PDF
20. Numériser l'oral
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
corpus oraux ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,Dublin-Core ,standards ,OAI ,XML ,oral corpora ,OLAC ,archives ouvertes ,normes ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,open archives - Abstract
The history of preservation of oral corpora is strongly linked to the history of the technical issues for his capture. In the last century, these issues have advanced greatly until an upheaval brought by digital technology, computer tools and networks.After a brief presentation of the current state of the art, we present a set of new and old concerns in the preservation and dissemination of oral corpora. We illustrate our point with the example provided by the Centre de Ressources pour la Description de l'Oral (CRDO1), centre newly created by the CNRS to ensure the sharing of oral corpora within the scientific community, L'histoire de la conservation de l'oral est fortement liée à l'histoire des techniques utilisées pour sa capture. Ces dernières ont fortement évoluées au cours du siècle dernier jusqu'à un bouleversement récent apporté par les techniques numériques et par l'outil informatique. Après un bref exposé de la situation actuelle, nous présenterons dans ce qui suit un ensemble de préoccupations nouvelles et anciennes en matière de conservation et de diffusion de données orales. Nous illustrerons notre propos par l'exemple apporté par le Centre de Ressources pour la Description de l'Oral (CRDO), centre nouvellement crée par le CNRS pour assurer le partage de corpus oraux au sein de la communauté scientifique.
- Published
- 2007
21. Corpus oraux : guide des bonnes pratiques 2006
- Author
-
Isabelle de Lamberterie, Olivier Baude, Claire Blanche-Benveniste, Marie-France Calas, Paul Cappeau, Pascal Cordereix, Laurence Goury, Michel Jacobson, Christiane Marchello-Nizia, Lorenza Mondada, Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Baude, Olivier, Centre Orléanais de Recherches en Anthropologie et Linguistique (CORAL), Université d'Orléans (UO), École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL), DMF, Ministère de la Culture et de la Communication (MCC), Université de Poitiers, Bibliothèque nationale de France, Département de l'Audiovisuel (BnF_AUD), Ministère de la Culture et de la Communication (MCC)-Bibliothèque Nationale de France, Centre d'Études des Langues Indigènes d'Amérique (CELIA), Institut de Recherche pour le Développement (IRD)-Institut National des Langues et Civilisations Orientales (Inalco)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS), Institut de Recherche pour le Développement (IRD), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre d'études sur la cooperation juridique internationale (CECOJI), Université de Poitiers-Centre National de la Recherche Scientifique (CNRS), Formes et Représentations en Linguistique et Littérature (FORELL-EA3816), Service interministériel des archives de France (SIAF), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., École Pratique des Hautes Études (EPHE), Centre d'études sur la coopération juridique internationale (CECOJI), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Institut des Sciences sociales du Politique (ISP), École normale supérieure - Cachan (ENS Cachan)-Centre National de la Recherche Scientifique (CNRS)-Université Paris Nanterre (UPN), École normale supérieure - Cachan (ENS Cachan)-Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Bibliothèque nationale de France, Département Son, Vidéo, Multimédia (BnF_AUD), and Marchello-Nizia, Christiane
- Subjects
diffusion des donnés ,respect de la vie privée ,traitement automatique du language ,bonnes pratiques ,droit de la recherche ,numérisation des données ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,droit d'auteur ,archives sonores ,Linguistique ,[SHS.DROIT]Humanities and Social Sciences/Law ,exploitation des données ,Corpus oraux ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
International audience; Depuis une vingtaine d'années, les études sur les corpus de langues parlées ont complètement renouvelé les sciences du langage. Les toutes nouvelles technologies en matière de stockage, de diffusion, mais aussi d'exploitation des enregistrements sonores, couplées aux outils de traitement automatique du langage (transcriptions synchronisées sur le signal, annotations, etc.) ouvrent des perspectives prometteuses. Toutefois, cette situation ne va pas sans poser de nombreuses questions juridiques et éthiques, mais aussi techniques, méthodologiques et théoriques. Ce sont les réponses à ces questions que souhaitent présenter le Guide des bonnes pratiques. Rédigé par un groupe de travail constitué de linguistes, juristes, informaticiens et conservateurs, cet ouvrage a pour vocation d'éclairer la démarche des chercheurs, de repérer les problèmes et les solutions juridiques et de favoriser l'émergence de pratiques communes pour la constitution, l'exploitation, la conservation et la diffusion des corpus oraux.
- Published
- 2006
22. Corpus oraux glosés: outils logiciels d'aide à l'analyse
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), and Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
markup language ,Corpus oraux ,linguistique de terrain ,Field linguistics ,Langage de balisage de texte ,Oral corpora ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2004/pdf/JADT_058.pdf; Field linguistics and textual linguistics both work on written data. Field linguistics data is usually created through the analysis of oral recordings. The structure and the type of searches one may desire can be specific to aspects of sound or temporality. But apart from these few differences, the methods used to study this type of data have many points in common with those used in textual linguistics.To illustrate these common points, we will examine several cases of recurrent tasks in field linguistics: morphemic analysis and glossing. We will see how recourse to the study of segments contexts (words, morphemes) given by concordances, or recourse to the calculation of the frequency of use of these units can help to carry out these tasks, or even partially automate them.To finish, we will present a program designed to help gloss oral data by compiling, alongside the data, a lexicon of all the glosses already used. We will also examine how to use this tool to implement the methods cited above to optimize its usefulness for linguists.; La linguistique de terrain et la linguistique textuelle travaillent toutes les deux sur des corpus écrits. Ceux de la linguistique de terrain sont en général issus d'analyses d'enregistrements oraux. La structure et le type de requêtes que l'on peut formuler à leur égard peuvent parfois être spécifiques de l'aspect sonore ou temporel. Mises à part ces quelques différences, les méthodes utilisées pour l'étude de ces corpus ont de nombreux points en commun avec celles utilisées en linguistique textuelle.Pour illustrer ces points communs, nous examinerons quelques cas de tâches récurrentes en linguistique de terrain : la segmentation et la détermination de gloses. Nous verrons notamment comment le recours à l'examen des contextes d'apparition de segments (mots, morphèmes) donnés par des concordances, ou bien comment le calcul des fréquences d'apparition de ces unités peuvent nous aider à effectuer ces tâches ou bien même à les automatiser en partie.Nous présenterons enfin un logiciel créé pour aider à gloser des corpus oraux en entretenant parallèlement au corpus, un lexique de toutes les gloses déjà utilisées. Nous examinerons également comment implémenter dans cet outil les méthodes citées plus haut pour optimiser l'aide apportée au linguiste.
- Published
- 2004
23. Gestion de corpus oraux annotés : Méthodes et outils
- Author
-
Michel Jacobson, Jacobson, Michel, Langues et civilisations à tradition orale (LACITO), and Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
markup language ,speech corpora ,phonétique ,corpus oraux ,phonetics ,langage de balisage de texte ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
In linguistics or in phonetics, the speech corpora comprise, in general, two kinds of resources: speech recordings and annotations. Management tools of such corpora must be able to manage these two kinds of resources. We'll present here a survey of tools and formalisms used in the creation of such corpora. We'll also present some criteria allowing us to make a choice between them. We will conclude by the presentation of a model connecting two management tools: a software which makes phonetics analysis and a software which makes requests on a textual linguistic annotation. We will illustrate the use of this model in an example showing how to enrich an annotation by the automatic addition of values computed on the speech signal., En linguistique comme en phonétique, les corpus de parole comportent généralement deux types de ressources: les enregistrements et leurs annotations. Les outils de gestion de tels corpus doivent être capable de gérer ces deux types de ressources. Nous présentons ici une revue des outils et des formalismes utilisés pour la création de ces corpus. Nous présenterons aussi des critères pour nous aider a faire un choix parmis eux. Nous conclurons par la présentation d'un modèle connectant deux outils de gestion: un logiciel d'analyses phonétiques et un logiciel permettant de faire des requêtes sur des annotations linguistiques. Nous illustrerons l'utilisation de ce modèle par un exemple d'enrichissement automatique de l'annotation par des valeurs calculées par l'analyse du signal.
- Published
- 2004
24. Linguistic documents synchronizing sound and text
- Author
-
John B. Lowe, Michel Jacobson, Boyd Michailovsky, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
Linguistics and Language ,Markup language ,computer.internet_protocol ,Computer science ,XSL ,Text annotation ,02 engineering and technology ,computer.software_genre ,01 natural sciences ,Language and Linguistics ,Annotation ,0103 physical sciences ,0202 electrical engineering, electronic engineering, information engineering ,speech annotation ,010301 acoustics ,computer.programming_language ,Communication ,[SCCO.LING]Cognitive science/Linguistics ,Linguistics ,Computer Science Applications ,Metadata ,Scripting language ,Modeling and Simulation ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,020201 artificial intelligence & image processing ,Computer Vision and Pattern Recognition ,[SCCO.LING] Cognitive science/Linguistics ,field linguistics ,computer ,Software ,XML ,Sentence - Abstract
The goal of the LACITO linguistic archive project is to conserve and to make available for research recorded and transcribed oral traditions and other linguistic materials in (mainly) unwritten languages, giving simultaneous access to sound recordings and text annotation. The project uses simple, TEI-inspired XML markup for the kinds of annotation traditionally used in field linguistics. Transcriptions are segmented at the levels of, roughly, the sentence and the word, and annotation associated with different levels: metadata at the text level, free translation at the sentence level, interlinear glosses at the word level, etc. Time alignment is at the sentence (and optionally the word) level. To minimize in-house development and maintenance, the project uses standard software to the extent possible. Marked-up data is processed using widely-available XML/XSL/XSLT/XQL software tools, and displayed using standard browsers. The project has developed (1) an authoring tool, SoundIndex, to facilitate time-alignment, (2) a Java applet which enables standard browsers to access time-aligned speech, (3) XSL stylesheets which determine \"views\" on the data, and (4) a simple CGI interface permitting the user to choose documents and views and to enter queries. The paper describes these elements in detail. Current objectives are further development of the annotation with a view to linguistic research beyond simple browsing, and of a querying system (using a standard XML query processor) to exploit the annotated material.
- Published
- 2001
25. Modèles économiques et techniques
- Author
-
Michel Jacobson, Guillaume Blanchot, Jean-François Gervais, David Clemenceau, and Éric Rault
- Subjects
Communication ,Library and Information Sciences - Abstract
Le premier pole de ce dossier propose un eclairage economique et technique de l’evolution en cours des videos en ligne. Jean-Francois Gervais analyse les facteurs et les contextes de l’emergence de la video sur le Web. Guillaume Blanchot etudie les modeles economiques qui semblent actuellement se degager. David Clemenceau puis Michel Jakobson presentent les formats, referentiels et normes a adopter selon les usages vises, et Eric Rault pose la question du traitement des metadonnees.
- Published
- 2010
- Full Text
- View/download PDF
26. Les outils modernes pour la transcription de corpus de parole
- Author
-
Michel Jacobson, Jacobson, Michel, Langues et civilisations à tradition orale (LACITO), and Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-MM] Computer Science [cs]/Multimedia [cs.MM] ,linguistique de terrain ,[INFO.INFO-MM]Computer Science [cs]/Multimedia [cs.MM] ,speech annotation ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,field linguistic ,annotation de la parole - Abstract
Computer tools and formats for linguistic transcription and for the annotation of linguistic corpora are reviewed. Standardization of these tools and formats will facilitate the coding, exchange, and dissemination of information.A method of annotation for corpora of spoken language, developed as part of a program to archive linguistic field recordings, is presented as an example. The method relies as far as possible on emerging standards for structured text (XML, Unicode). Data formats for both sound and annotation and processing tools (editors, parsers, browsers) are discussed., Nous présentons ici une revue des différents outils et formalismes informatiques récents qui peuvent aider le linguiste à faire de la transcription, et plus généralement à faire de l'annotation sur des corpus de parole. La standardisation des ces outils et de ces formalismes facilite le codage, l'échange et la diffusion de l'information.Nous présentons à titre d'illustration une méthode d'annotation de corpus de parole mise au point dans le cadre d'un programme d'archivage d'enregistrements de terrain. Cette méthode utilise le plus possible les standards émergeants (Unicode et XML). Nous décrivons dans cet article à la fois la structure des données (enregistrements et annotations) et les outils de manipulation de ces dernières (parseurs, éditeurs, browsers, etc.).
27. Processus d'archivage : un pas de plus dans la démat
- Author
-
Michel Jacobson and Jacobson, Michel
- Subjects
[SHS.INFO.GEST] Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,archivage numérique ,modélisation - Abstract
Le standard d'échange de données pour l'archivage (Seda), pose les fondements d'une dématérialisation pour les processus d'archivage.
28. Tentative de formalisation algorithmique de la démarche du phonologue: Un outil d'aide à la formulation d'hypothèses phonologiques
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), and Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
phonology ,software ,logiciel ,phonologie ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
http://www.loria.fr/projets/JEP/JEP2002/papiers/47.pdf; We present a formal computerized model of a particular linguistic theory, functional phonology -- a theory which is often criticized precisely for its lack of formalization. This theory proposes on the one hand a general framework for the expression of phonological phenomena and on the other a model for a discovery procedure for phonological units. In formalizing this theory explicitly, we have arrived at (1) a formalism for the expression of data and hypotheses and (2) a computer program emulating the functionalist methods of phonological analysis.In the paper, we present the principal data structures used and the procedures which we have designed to process them. Methodological obstacles which we have faced in implementing the model are discussed.; Nous présentons ici la formalisation informatique d'une théorie linguistique particulière (le fonctionnalisme) souvent critiquée justement par son absence de formalisation. Cette théorie propose non seulement un cadre général pour exprimer les phénomènes d'ordre phonologique mais aussi une modélisation de la démarche de découverte des unités linguistiques. Le travail d'explicitation de cette théorie a débouché 1) sur la mise en place d'un formalisme d'expression pour les données et les hypothèses 2) sur la conception d'un logiciel reproduisant ou assistant la démarche de l'analyse phonologique de cette école. Nous présentons dans ce papier les principales structures de données ainsi que les principales fonctions du logiciel qui y font appel. Nous essaierons enfin de relever les différents obstacles méthodologiques que nous avons rencontrés dans notre démarche de formalisation.
29. L'annotation des corpus oraux
- Author
-
Gabriel Bergounioux, Michel Jacobson, Paola Pietrandrea, Bergounioux, Gabriel, Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), and Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Corpus oraux ,consignes d'annotation ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,formats d'annotation - Abstract
Version française d'un article traduit en anglais; Cet article est la version française de l'article "Annotating oral corpora" publié chez De Gruyter. Il examine à la date de production (2017) les types d'annotations et de corpus, la rédaction des consignes et les formats avec une attention particulière pour le travail des annotateurs et les niveaux d'analyse. Il se conclut par la présentation de critiques adressées aux modèles.
30. Les archives sonores au LACITO
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
archives sonores ,support ,linguistique de terrain ,pérennisation ,diffusion ,enregistrement sonore ,General Earth and Planetary Sciences ,[INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL] ,[INFO.INFO-DL] Computer Science [cs]/Digital Libraries [cs.DL] ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,archives ouvertes ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
http://afas.mmsh.univ-aix.fr/Bulletin/Bulletin_AFAS_26.pdf; Cette présentation du projet "Archivage" du LACITO reprend celle exposée lors d'une journée d'étude de l'AFAS, à Paris, à la Bibliothèque nationale de France le 2 octobre 2003.Le programme Archivage assure la gestion des données issues des enquêtes de linguistique de terrain des chercheurs du laboratoire LACITO. Les 3 principaux buts sont : 1) Le sauvetage en vue de la pérennisation des données, 2)Leur diffusion, 3) La facilitation d'accès à ces données.
31. Gestion documentaire sur les corpus de parole
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
[INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL] ,OAI ,[INFO.INFO-DL] Computer Science [cs]/Digital Libraries [cs.DL] ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,archives ouvertes ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Les corpus oraux en linguistique (enregistrements et annotations de ceux-ci), tout comme pour n'importe quel autre type de document, demandent une gestion documentaire appropriée. Ces documents doivent être décrits le plus finement possible d'une part pour pouvoir être retrouvés lorsqu'ils seront mélangés à d'autres et catalogués dans de vastes entrepôts de données, d'autre part afin de permettre leur maintenance. Ces descriptions ne seront pérennes, voire maintenables à moyen termes que si elles ont été faites de manière standardisée voire normalisée. La distribution de ces documents doit aussi être normalisée de manière à ce qu'ils soient le plus facilement accessible par le plus grand nombre.L'open Archive Initiative, à l'origine mis en place pour faciliter l'interopérabilité des grands serveurs de pre-prints peut servir de modèle pour la définition d'autres archives de données: par exemple dans le domaine des corpus oraux.
32. Cocoon une plateforme pour la conservation et la diffusion de ressources orales en sciences humaines et sociales
- Author
-
Michel Jacobson, Flora Badin, Séverine Guillaume, Jacobson, Michel, Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS)
- Subjects
corpus oraux ,archivage ,métadonnées ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
33. Corpus oraux en linguistique de terrain
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
interlinear text ,minority languages ,[SCCO.LING] Cognitive science/Linguistics ,[SCCO.LING]Cognitive science/Linguistics ,oral corpora ,field linguistic ,normalisation - Abstract
28 pages; Speech corpora constructed in field linguistics are usually characterised by their small volume. They mostly concern little described languages, for which data are scarce. Field work also has its particularities, which means that recordings are closer to “spontaneous” than to laboratory speech. These characteristics influence the methods used for constituting and managing these corpora. To illustrate these specific methods, we will present a program for archiving field linguistics documents, aiming to preserve, perpetuate, normalise and circulate these documents. In particular, we will examine past and present formalisms and tools for managing corpora of this type. To finish, we will evoke some problems in organisation and law concerning the circulation of these resources.
34. Conservation des langues menacées et partage des ressources : exemples et conseils pratiques
- Author
-
Alexis Michaud, Michel Jacobson, and Michaud, Alexis
- Subjects
corpus oraux ,archivage ,LACITO ,corpus ,XML ,Unicode ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Ce document est le support de cours d'une intervention à l'Ecole d'été CNRS "Linguistique de Corpus" (Caen, 2004). Il présente le programme Archivage du LACITO, mettant l'accent sur quelques conseils pratiques concernant les corpus oraux.
35. Corpus de la parole : collecte, catalogage, conservation et diffusion des ressources orales sur le fraņ cais et les langues de France
- Author
-
Michel Jacobson
36. INTEROPERABILITY OF AUDIO CORPORA : THE CASE OF THE FRENCH CORPORA
- Author
-
Olivier Baude, Michel Jacobson, Atanas Tchobanov, Richard Walter, Centre Orléanais de Recherches en Anthropologie et Linguistique (CORAL), Université d'Orléans (UO), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Technische Universität Berlin (TU), and Baude, Olivier
- Subjects
Spoken corpora ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
International audience; We present here the choices which were made within the framework of three oral corpora projects : Socio-linguistics studies on Orleans (ESLO), Phonology of the Contemporary French (PFC), The Archivage corpus of the LACITO lab. This comparative presentation of three corpora of audio linguistic resources comes from a analysis about the options the project have to operate to describe them for discovery purposes and to compare the contents. The aim is to illustrate the interest to think the interoperability and the methodology of codings and the metadata. Through this step, we want to simplify the technical creation of audio corpora and thus the constitution of linguistic resources, usable by enlarged academic and industrial communities.
37. Conserver et exploiter les corpus de parole
- Author
-
Olivier Baude, Michel Jacobson, and Baude, Olivier
- Subjects
formats ,codage ,OAIS ,corpus oraux ,archivage ,diffusion ,[SHS] Humanities and Social Sciences ,normes ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Présentation des initiatives de conservation et diffusion de corpus linguistiques numériques.
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.