36 results on '"Jacobson, Michel"'
Search Results
2. Data Citation in Practice - Cocoon a French repository dedicated to oral resources
- Author
-
Larrousse, Nicolas and Jacobson, Michel
- Subjects
EOSC ,data ,citation ,SSHOC ,oral resources ,European Open Science Cloud - Abstract
FAIR data are the pillar of Open Science which is at the core of the SSHOC project. In order to ensure findability of data and other resources, it is crucial to provide easy-to-use recommendations for data citation in the SSH domains. At the SSHOC Workshop"Data Citation in Practice"Michel JacobsonandNicolas Larroussepresented the specifics of citing oral resources inFrench CoCoon Center.
- Published
- 2021
- Full Text
- View/download PDF
3. Le modèle du Linked Open Data appliqué à des ressources orales
- Author
-
Jacobson Michel and Baude Olivier
- Subjects
Social Sciences - Abstract
Afin de faciliter la réutilisation de corpus oraux par des personnes étrangères à leur collecte, les producteurs ainsi que les gestionnaires (documentalistes, archivistes, etc.) de ces corpus, doivent les organiser et les documenter. Jusqu’à récemment, la réutilisation de ces données était principalement envisagée sous les angles du droit des utilisateurs et de l’interopérabilité entre les machines et entre les logiciels. Depuis le début des années 2000, avec l’arrivée des technologies du « web sémantique » et plus récemment encore avec le mouvement du « Linked Open Data » (LOD), l’interopérabilité est aussi appréhendée au niveau sémantique. Les vocabulaires, ontologies, référentiels disponibles dans différents secteurs permettent aujourd’hui d’envisager d’autres pratiques de documentation. Enfin, les modèles de diffusion ou de mise à disposition des données du LOD ouvrent la porte à de nouvelles organisations pour la gestion de l’information. Nous discuterons de ces nouvelles orientations à travers un retour d’expérience de la plateforme de gestion de corpus oraux Cocoon (Collections de corpus oraux numériques). Seront discutés plus particulièrement les raisons des évolutions dans son modèle de données, ainsi que les avantages fonctionnels que cette plateforme entend tirer du LOD.
- Published
- 2016
- Full Text
- View/download PDF
4. Sharing data in small and endangered languages
- Author
-
Thieberger, Nicholas, primary and Jacobson, Michel, additional
- Published
- 2010
- Full Text
- View/download PDF
5. Long term preservation of TEI corpora
- Author
-
Larrousse, Nicolas, primary and Jacobson, Michel, additional
- Published
- 2020
- Full Text
- View/download PDF
6. ELAN Schema XSD
- Author
-
Jacobson, Michel, Collections de corpus oraux numériques, and Jacobson, Michel
- Published
- 2016
- Full Text
- View/download PDF
7. Linguistic documents synchronizing sound and text
- Author
-
Jacobson, Michel, Michailovsky, Boyd, and B. Lowe, John
- Published
- 2001
- Full Text
- View/download PDF
8. Trace(s) du locuteur et corpus numériques
- Author
-
Kanaan-Caillol, Layal, Jacobson, Michel, Baude, Olivier, Dugua, Céline, Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), and Dugua, Céline
- Subjects
Métadonnées ,Cocoon ,ESLO ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Corpus oral - Abstract
International audience; Les Enquêtes sociolinguistiques à Orléans, que ce soit dans la version du corpus d’Orléans de 1968-71 ou dans celle du second corpus réalisé à partir de 2005, sont fondées sur l’importance du locuteur, en tant qu’agent socialement décrit et défini, dans l’analyse linguistique. Cet axiome de la linguistique variationniste pose toutefois des difficultés, parfois implicites, quand il s’agit de transformer une réalité sociale en corpus d’analyses linguistiques. Comment conserver et traiter les données qui définissent un locuteur dans un grand corpus numérique dont l’une des caractéristiques est de répondre à un objectif d’interopérabilité ? La question peut paraitre triviale, pourtant avant même de penser aux conditions d’une analyse outillée de données sociologiques et linguistiques, il convient de s’interroger sur les effets des procédures de gestion du corpus numérique.Cette communication vise à porter un regard réflexif sur les opérations de gestion des données des corpus ESLO dans le cadre de la conservation, la description et la mise à disposition par l’intermédiaire de la plateforme Cocoon dédiée aux corpus oraux.
- Published
- 2017
9. Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection
- Author
-
Michaud, Alexis, Guillaume, Séverine, Jacques, Guillaume, Mạc, Đăng-Khoa, Jacobson, Michel, Phạm, Thu-Hà, Deo, Matthew, International Research Institute MICA (MICA), Institut National Polytechnique de Grenoble (INPG)-Hanoi University of Science and Technology (HUST)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre de Recherches Linguistiques sur l'Asie Orientale (CRLAO), École des hautes études en sciences sociales (EHESS)-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), Vietnam National University [Hanoï] (VNU), Projet DO-RE-MI-FA, financé par la Bibliothèque Scientifique Numérique au titre de la numérisation du patrimoine scientifique de l'enseignement supérieur et de la recherche, Association Francophone de la Communication Parlée, ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), ANR-12-CORP-0006,HimalCo,Corpus parallèles en langues himalayennes(2012), Michaud, Alexis, Corpus, données et outils de la recherche en sciences humaines et sociales (Corpus) - Corpus parallèles en langues himalayennes - - HimalCo2012 - ANR-12-CORP-0006 - Corpus - VALID, and Empirical Foundations of Linguistics : data, methods, models - - EFL2010 - ANR-10-LABX-0083 - LABX - VALID
- Subjects
diversité linguistique ,language archives ,archives orales ,phonetic research ,endangered documentation ,documentation en danger ,under-resourced languages ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,open archives ,language documentation ,langues peu dotées ,linguistic diversity ,documentation linguistique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,recherches phonétiques ,archives ouvertes - Abstract
This talk sets out the scientific goals and achievements of two collections hosted by the Cocoon Open Archive of oral resources: the Pangloss Collection, which mainly focuses on unwritten languages from all areas in the world ; and the AuCo Collection, which is dedicated to languages of Vietnam and neighbouring countries. The aim is to contribute to joint progress in language documentation and in research. Emphasis is placed on the perspectives for phonetic/phonological research that are opened by some recent achievements in the framework of these two Collections., La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L'objectif est un progrès solidaire des recherches et de la documentation linguistique. L'accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections.
- Published
- 2016
10. Corpus oraux glosés
- Author
-
Jacobson, Michel and Jacobson, Michel
- Subjects
markup language ,Corpus oraux ,linguistique de terrain ,Field linguistics ,Langage de balisage de texte ,Oral corpora ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Field linguistics and textual linguistics both work on written data. Field linguistics data is usually created through the analysis of oral recordings. The structure and the type of searches one may desire can be specific to aspects of sound or temporality. But apart from these few differences, the methods used to study this type of data have many points in common with those used in textual linguistics.To illustrate these common points, we will examine several cases of recurrent tasks in field linguistics: morphemic analysis and glossing. We will see how recourse to the study of segments contexts (words, morphemes) given by concordances, or recourse to the calculation of the frequency of use of these units can help to carry out these tasks, or even partially automate them.To finish, we will present a program designed to help gloss oral data by compiling, alongside the data, a lexicon of all the glosses already used. We will also examine how to use this tool to implement the methods cited above to optimize its usefulness for linguists., La linguistique de terrain et la linguistique textuelle travaillent toutes les deux sur des corpus écrits. Ceux de la linguistique de terrain sont en général issus d'analyses d'enregistrements oraux. La structure et le type de requêtes que l'on peut formuler à leur égard peuvent parfois être spécifiques de l'aspect sonore ou temporel. Mises à part ces quelques différences, les méthodes utilisées pour l'étude de ces corpus ont de nombreux points en commun avec celles utilisées en linguistique textuelle.Pour illustrer ces points communs, nous examinerons quelques cas de tâches récurrentes en linguistique de terrain : la segmentation et la détermination de gloses. Nous verrons notamment comment le recours à l'examen des contextes d'apparition de segments (mots, morphèmes) donnés par des concordances, ou bien comment le calcul des fréquences d'apparition de ces unités peuvent nous aider à effectuer ces tâches ou bien même à les automatiser en partie.Nous présenterons enfin un logiciel créé pour aider à gloser des corpus oraux en entretenant parallèlement au corpus, un lexique de toutes les gloses déjà utilisées. Nous examinerons également comment implémenter dans cet outil les méthodes citées plus haut pour optimiser l'aide apportée au linguiste.
- Published
- 2004
11. Tentative de formalisation algorithmique de la démarche du phonologue
- Author
-
Jacobson, Michel and Jacobson, Michel
- Subjects
phonology ,software ,logiciel ,phonologie ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
We present a formal computerized model of a particular linguistic theory, functional phonology -- a theory which is often criticized precisely for its lack of formalization. This theory proposes on the one hand a general framework for the expression of phonological phenomena and on the other a model for a discovery procedure for phonological units. In formalizing this theory explicitly, we have arrived at (1) a formalism for the expression of data and hypotheses and (2) a computer program emulating the functionalist methods of phonological analysis.In the paper, we present the principal data structures used and the procedures which we have designed to process them. Methodological obstacles which we have faced in implementing the model are discussed., Nous présentons ici la formalisation informatique d'une théorie linguistique particulière (le fonctionnalisme) souvent critiquée justement par son absence de formalisation. Cette théorie propose non seulement un cadre général pour exprimer les phénomènes d'ordre phonologique mais aussi une modélisation de la démarche de découverte des unités linguistiques. Le travail d'explicitation de cette théorie a débouché 1) sur la mise en place d'un formalisme d'expression pour les données et les hypothèses 2) sur la conception d'un logiciel reproduisant ou assistant la démarche de l'analyse phonologique de cette école. Nous présentons dans ce papier les principales structures de données ainsi que les principales fonctions du logiciel qui y font appel. Nous essaierons enfin de relever les différents obstacles méthodologiques que nous avons rencontrés dans notre démarche de formalisation.
- Published
- 2002
12. Pangloss archive DTD
- Author
-
Jacobson, Michel, Collections de corpus oraux numériques, Michailovsky, Boyd, and Jacobson, Michel
- Published
- 2001
- Full Text
- View/download PDF
13. Transcriber DTD
- Author
-
Jacobson, Michel, Collections de corpus oraux numériques, and Jacobson, Michel
- Published
- 2001
- Full Text
- View/download PDF
14. Le choix d'un format: référentiels, normes et bonnes pratiques
- Author
-
Jacobson, Michel, Service interministériel des archives de France (SIAF), and Ministère de la Culture et de la Communication (MCC)
- Subjects
format de représentation ,vidéo ,[SHS.INFO.INGE]Humanities and Social Sciences/Library and information sciences/domain_shs.info.inge ,archivage ,[SHS.INFO.GEST]Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,ComputingMilieux_MISCELLANEOUS - Abstract
National audience
- Published
- 2010
- Full Text
- View/download PDF
15. Corpus oraux, Guide des bonnes pratiques 2006. Version allemande
- Author
-
Baude, Olivier, Blanche-Benveniste, Claire, Calas, Marie-France, Cappeau, Paul, Cordereix, Pascal, Goury, Laurence, Jacobson, Michel, de Lamberterie, Isabelle, Marchello-Nizia, Christiane, Mondada, Lorenza, Centre Orléanais de Recherches en Anthropologie et Linguistique (CORAL), Université d'Orléans (UO), École pratique des hautes études (EPHE), Université Paris sciences et lettres (PSL), DMF, Ministère de la Culture et de la Communication (MCC), Formes et Représentations en Linguistique et Littérature (FORELL-EA3816), Université de Poitiers, Bibliothèque nationale de France, Département de l'Audiovisuel (BnF_AUD), Ministère de la Culture et de la Communication (MCC)-Bibliothèque Nationale de France, Centre d'Études des Langues Indigènes d'Amérique (CELIA), Institut de Recherche pour le Développement (IRD)-Institut National des Langues et Civilisations Orientales (Inalco)-Université Paris Diderot - Paris 7 (UPD7)-Centre National de la Recherche Scientifique (CNRS), Structure et Dynamique des Langues (SeDyL), Institut National des Langues et Civilisations Orientales (Inalco)-Institut de recherche pour le développement [IRD] : UR135-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), Centre d'études sur la cooperation juridique internationale (CECOJI), Université de Poitiers-Centre National de la Recherche Scientifique (CNRS), Interactions, Corpus, Apprentissages, Représentations (ICAR), École normale supérieure - Lyon (ENS Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), Les auteurs remercient le LABEX ASLAN (ANR-10-LABX-0081) de l'Université de Lyon pour son soutien financier dans le cadre du programme 'Investissements d'Avenir' (ANR-11-IDEX-0007) de l'Etat Français géré par l'Agence Nationale de la Recherche (ANR)., Baude, Olivier, Advanced Studies on Language Complexity - - ASLAN2010 - ANR-10-LABX-0081 - LABX - VALID, PROJET AVENIR LYON SAINT-ETIENNE - - Avenir L.S.E.2011 - ANR-11-IDEX-0007 - IDEX - VALID, École Pratique des Hautes Études (EPHE), Centre d'études sur la coopération juridique internationale (CECOJI), École normale supérieure de Lyon (ENS de Lyon)-Université Lumière - Lyon 2 (UL2)-INRP-Ecole Normale Supérieure Lettres et Sciences Humaines (ENS LSH)-Centre National de la Recherche Scientifique (CNRS), ANR-10-LABX-0081,ASLAN,Advanced Studies on Language Complexity(2010), ANR-11-IDEX-0007,Avenir L.S.E.,PROJET AVENIR LYON SAINT-ETIENNE(2011), and Bibliothèque nationale de France, Département Son, Vidéo, Multimédia (BnF_AUD)
- Subjects
Spoken corpora ,Gesprochene Sprache ,Spoken korpora ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Sprachwissenschaft - Abstract
Viele Grundlagen - oder angewandte Forschungen beruhen zur Zeit auf der Auswertung von „Korpora der gesprochenen Sprache“ (geordneten Sammelwerken der Aufnahmen von mündlichen und multimodalen sprachlichen Produktionen). Dieses Handbuch der guten Praktiken entsteht aus der Erkenntnis von Sprachwissenschaftlern, die darauf bedacht sind, den Fortbestand der Quellen und einen verschiedenartigen Zugang zu den mündlichen von ihnen produzierten Produktionen zu sichern ; es schneidet zuerst die „Korpora der gesprochenen Sprache“ an, die von Sprachwissenschaftlern und für sie geschaffen und verwendet wurden. Die durch die Erschaffung und die dokumentarische Auswertung dieser Korpora hervorgerufenen Fragen trifft man aber in vielen Fächern : die Völkerkunde, die Anthropologie, die Soziologie, die Psychologie, die Demographie, die mündlich überlieferte Geschichte gebrauchen vor allem die verbale Befragung, die Aussage, das Interview, die Lebensgeschichte. Dieses Handbuch beruft sich auf das Verfahren der Sprachwissenschaftler, es stimmt aber mit den Beschäftigungen anderer Forscher überein, die Korpora der gesprochenen Sprache (z. B. in Sprachsynthese und -entzifferung) gebrauchen, auch wenn ihre spezifischen Bedürfnisse im vorliegenden Dokument nicht systematisch angeschnitten werden., De nombreuses recherches fondamentales ou appliquées reposent actuellement sur l'exploitation de "corpus de langue parlée" (recueils organisés d'enregistrements de productions langagières orales et multimodales). Ce manuel de bonnes pratiques est issu du constat de linguistes soucieux d'assurer la pérennité des sources et un accès diversifié aux productions orales qu'ils produisent ; il aborde d'abord les "corpus de langue parlée" créés et utilisés par et pour les linguistes. Or, les questions suscitées par la création et l'exploitation documentaire de ces corpus se rencontrent dans de nombreuses disciplines : l'ethnologie, l'anthropologie, la sociologie, la psychologie, la démographie, l'histoire orale utilisent surtout l'interrogation verbale, le témoignage, l'interview, le récit de vie. Ce manuel se réclame de la démarche des linguistes, mais il rejoint les préoccupations d'autres chercheurs qui utilisent des corpus de langue parlée (par exemple en synthèse et en décodage linguistique), même si leurs besoins spécifiques ne sont pas systématiquement abordés dans le présent document.
- Published
- 2010
16. Archiving linguistic patrimony: endangered languages, oral tradition, and digital standards
- Author
-
Michailovsky, Boyd, Jacobson, Michel, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Michailovsky, Boyd
- Subjects
speech archive ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,linguistics ,corpus oral ,archive linguistique ,archive de la parole ,données linguistiques ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,linguistic data archive ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,speech corpus ,linguistique - Abstract
A brief description of the architecture of the Lacito Archive, an on-line archive of recordings with synchronized XML annotation for linguistic research. Brief introduction to the XML document structure, the metadata, and the client-server architecture giving access to the archive., Brève description du programme Archivage du Lacito (équipe de recherche du CNRS): mise en ligne de corpus d'enregistrements synchronisé avec des annotations pour la recherche linguistique. La structure XML des documents et des métadonnées ainsi que l'architecture du site qui permet leur interrogation sont décrites.
- Published
- 2005
17. Modèles économiques et techniques
- Author
-
Gervais, Jean-François, primary, Blanchot, Guillaume, additional, Clemenceau, David, additional, Jacobson, Michel, additional, and Rault, Éric, additional
- Published
- 2010
- Full Text
- View/download PDF
18. Les archives sonores au LACITO
- Author
-
Jacobson, Michel, primary
- Published
- 2004
- Full Text
- View/download PDF
19. Commercialism versus culture
- Author
-
Collins, Ronald K.L. and Jacobson, Michel F.
- Subjects
Consumption (Economics) ,Advertising ,Materialism ,Television advertising - Published
- 1990
20. Modèles économiques et techniques
- Author
-
Gervais, Jean-François, Blanchot, Guillaume, Clemenceau, David, Jacobson, Michel, Rault, Éric, Gervais, Jean-François, Blanchot, Guillaume, Clemenceau, David, Jacobson, Michel, and Rault, Éric
- Abstract
Résumé Le premier pôle de ce dossier propose un éclairage économique et technique de l’évolution en cours des vidéos en ligne. Jean-François Gervais analyse les facteurs et les contextes de l’émergence de la vidéo sur le Web. Guillaume Blanchot étudie les modèles économiques qui semblent actuellement se dégager. David Clemenceau puis Michel Jakobson présentent les formats, référentiels et normes à adopter selon les usages visés, et Éric Rault pose la question du traitement des métadonnées., Technical and business models Video as a medium is omnipresent on the Web. What are the technical and economic reasons behind this spectacular development? What are the motivations of cybernauts and how do they use on-line video? What is the role of television networks in this phenomenon? Audiovisual media dissemination on the Web is in constant progression, but this immature market is still seeking its business model. Several trends seem to be emerging. Which formats allow us to digitize a video collection? Depending on a variety of highly contrasting needs and uses among companies and organizations, which formats are adapted to using and preserving these collections? When choosing an on-line video format, many parameters, depending on the type of collection, how they will be used, and the roles of those involved must be taken into account: these include quality, comprehensiveness, fidelity, interoperability, long-term preservation, etc. Metadata related to audiovisual content is a tricky problem. Two methods are recommended: using the metadata format included in individual video files or using a specific database., Geschäftsmodelle und Techniken Das Medium Video ist derzeit im Web allgegenwärtig. Welche technischen und wirtschaftlichen Gründe erklären diese spektakuläre Entwicklung? Welches sind die Motivationen der Internet-Nutzer, und welchen Nutzen ziehen sie aus den Online-Videos? Welche Rolle spielen die Fernsehsender in diesem Phänomen? Wenngleich der Vertrieb von audiovisuellen Medien auf dem Web konstant fortschreitet, so ist dieser noch junge Markt noch auf der Suche nach Geschäftsmodellen. Einige Tendenzen zeichnen sich jedoch ab. Welche Formate ermöglichen die Umstellung von Videoarchiven in die digitale Welt? Welches sind, je nach der sehr verschiedenen Nutzung in Unternehmen und Institutionen, die angemessensten Formate zur Nutzung und Konservierung der Bestände? Wie wählt man ein Format für Online-Videos aus? Qualität, Vollständigkeit, Genauigkeit, Interoperabilität, Beständigkeit etc.: Es gilt, vielfältige Parameter zu beachten je nach Art der Bestände, der vorgesehenen Nutzung, der Funktion der Zielgruppen... Wie wählt man ein Format für Online-Videos aus? Qualität, Vollständigkeit, Genauigkeit, Interoperabilität, Beständigkeit etc.: Es gilt, vielfältige Parameter zu beachten je nach Art der Bestände, der vorgesehenen Nutzung, der Funktion der Zielgruppen... Die Frage der Verarbeitung von Metadaten zu audiovisuellen Inhalten ist schwierig. Zwei Methoden können unterschieden werden: Entweder die Nutzung der in den Videodateien enthaltenen Metadaten, oder die Nutzung einer separaten Datenbank., Modelos económicos y técnicos Los medios de vídeo están omnipresentes hoy en día en Internet. ¿Qué motivos técnicos y económicos explican este desarrollo espectacular? ¿Cuáles son los motivos de los internautas y qué uso hacen del vídeo en línea? ¿Qué papel desempeñan los canales de televisión en este fenómeno? Si la difusión de los medios audiovisuales en Internet está en constante progresión, este mercado aún joven no lo es menos en la búsqueda de modelos económicos. Parecen desprenderse algunas tendencias. ¿Cuáles son los formatos que permiten la transición de fondos de vídeo hacia lo numérico? ¿Cuáles son, según las necesidades y los usos muy contrastados de las empresas y las instituciones, los formatos adaptados a la explotación y a la conservación de estos fondos? ¿Cómo elegir un formato de vídeo en línea? La calidad, exhaustividad, fidelidad, interoperabilidad, perennidad, etc. de múltiples parámetros deben tenerse en cuenta en función de la naturaleza de los fondos, los usos previstos, de la función de los correspondientes actores... La cuestión del tratamiento de los metadatos relacionados con contenidos audiovisuales es delicada. Se pueden considerar dos métodos: la utilización del formato de metadatos incluidos en el contenedor del fichero de vídeo en cuestión o el recurso de una base de datos distinta.
21. le standard d'échange de données pour l'archivage : du standard à la norme.
- Author
-
Jacobson, Michel
- Published
- 2014
22. La question de l'archivage des données de la recherche en SHS (Sciences Humaines et Sociales)
- Author
-
Michel Jacobson, Nicolas Larrousse, Marion Massol, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), Huma-Num : la TGIR des humanités numériques (Huma-Num), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Centre Informatique National de l'Enseignement Supérieur (CINES), CINES, and Jacobson, Michel
- Subjects
[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,archivage numérique ,[SHS] Humanities and Social Sciences ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,pérennisation de l'information numérique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,[SHS]Humanities and Social Sciences - Abstract
Aujourd'hui les données de la recherche sont produites nativement sous forme numérique ou proviennent de la numérisation de données analogiques. Paradoxalement, le numérique dissociant l'information de son support, il se révèle plus complexe à gérer et la prise de conscience de la difficulté à pérenniser cette nouvelle forme d'information est très récente. Dans le cadre de la mise en place d'une infrastructure pour les Sciences Humaines et Sociales par la TGIR Huma-Num, une organisation s'appuyant sur les ressources du CINES (Centre Informatique National de l'Enseignement Supérieur) a été mise en place pour assurer l'archivage à long terme des données produites dans ce domaine. A la suite d'une première étude, un projet pilote a porté sur les données orales jugées représentatives des différents cas de figure pouvant se présenter dans les SHS. Ce projet pilote s'est déroulé sur une période de deux ans et a nécessité une évolution du système d'archivage numérique du CINES afin de prendre en compte les spécificités métier des SHS. Parallèlement, un travail de coordination a été effectué avec le SIAF (Service Interministériel des Archives de France) pour tenir compte des aspects propres au statut d'archives publiques de ces données. L'organisation mise en place durant le projet pilote, conformément au modèle OAIS (Open Archival Information System - norme ISO 14721), est dorénavant opérationnel et représente un cas original d'archivage des données de la recherche en SHS.
- Published
- 2014
23. Le standard d'échange de données pour l'archivage : du standard à la norme
- Author
-
Michel Jacobson and Jacobson, Michel
- Subjects
[SHS.INFO.INGE] Humanities and Social Sciences/Library and information sciences/domain_shs.info.inge ,archivage numérique ,medona ,seda ,modélisation - Abstract
Retours d'expériences sur la mise en oeuvre du standard d'échange de données pour l'archivage (Seda). Les différentes révisions du standard jusqu'à la publication de la norme Z 44-022 ou Medona (Modélisation de données pour l'archivage)
- Published
- 2014
24. L'archivage de la matrice cadastrale numérique : réflexions sur la qualité des données et de la documentation
- Author
-
Michel Jacobson, Françoise Banat-Berger, Jacobson, Michel, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), and Association des archivistes français
- Subjects
format de représentation ,métadonnées ,[SHS.INFO.GEST] Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,[SHS.INFO.GEST]Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,ComputingMilieux_MISCELLANEOUS - Abstract
National audience
- Published
- 2013
25. Corpus de la parole : collecte, catalogage, conservation et diffusion des ressources orales sur le français et les langues de France
- Author
-
Michel Jacobson, Olivier Baude, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Jacobson, Michel, Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), and Baude, Olivier
- Subjects
oral ,OAIS ,Oral corpora ,[SHS] Humanities and Social Sciences ,Corpus de la parole ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,archives ouvertes ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Corpus oral ,open archives ,[SHS]Humanities and Social Sciences ,Langues de France - Abstract
"Corpus de la parole" is a collaborative project between the Ministry of Culture of France and the CNRS, which aims to build a collection of resources on French and other languages of France. A Web site provides an editorialised access to this collection. This article presents the main points of the organization of this program: the data collection, the access, dissemination and sustainability aspects of the digital data., Le programme « Corpus de la parole » est un projet en collaboration entre le ministère de la Culture et de la Communication et le CNRS qui vise à constituer une collection de ressources orales sur le français et les langues de France. Un portail Web offre un accès éditorialisé à cette collection. Cet article présentera les points principaux de l'organisation de ce programme, de la collecte des corpus aux aspects de pérennisation en passant par l'accès et la diffusion des données numériques.
- Published
- 2011
26. Propositions pour le catalogage des données sur les langues en contact
- Author
-
Michel Jacobson, Emmanuel Schang, Service interministériel des archives de France (SIAF), Ministère de la Culture et de la Communication (MCC), Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
corpus oraux ,langues en contact ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 2008
27. Corpus oraux et normalisation
- Author
-
Michel Jacobson, Jacobson, Michel, Service interministériel des archives de France (SIAF), and Ministère de la Culture et de la Communication (MCC)
- Subjects
corpus oraux ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 2008
28. Numériser l'oral
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
corpus oraux ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,Dublin-Core ,standards ,OAI ,XML ,oral corpora ,OLAC ,archives ouvertes ,normes ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,open archives - Abstract
The history of preservation of oral corpora is strongly linked to the history of the technical issues for his capture. In the last century, these issues have advanced greatly until an upheaval brought by digital technology, computer tools and networks.After a brief presentation of the current state of the art, we present a set of new and old concerns in the preservation and dissemination of oral corpora. We illustrate our point with the example provided by the Centre de Ressources pour la Description de l'Oral (CRDO1), centre newly created by the CNRS to ensure the sharing of oral corpora within the scientific community, L'histoire de la conservation de l'oral est fortement liée à l'histoire des techniques utilisées pour sa capture. Ces dernières ont fortement évoluées au cours du siècle dernier jusqu'à un bouleversement récent apporté par les techniques numériques et par l'outil informatique. Après un bref exposé de la situation actuelle, nous présenterons dans ce qui suit un ensemble de préoccupations nouvelles et anciennes en matière de conservation et de diffusion de données orales. Nous illustrerons notre propos par l'exemple apporté par le Centre de Ressources pour la Description de l'Oral (CRDO), centre nouvellement crée par le CNRS pour assurer le partage de corpus oraux au sein de la communauté scientifique.
- Published
- 2007
29. Gestion de corpus oraux annotés : Méthodes et outils
- Author
-
Michel Jacobson, Jacobson, Michel, Langues et civilisations à tradition orale (LACITO), and Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
markup language ,speech corpora ,phonétique ,corpus oraux ,phonetics ,langage de balisage de texte ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
In linguistics or in phonetics, the speech corpora comprise, in general, two kinds of resources: speech recordings and annotations. Management tools of such corpora must be able to manage these two kinds of resources. We'll present here a survey of tools and formalisms used in the creation of such corpora. We'll also present some criteria allowing us to make a choice between them. We will conclude by the presentation of a model connecting two management tools: a software which makes phonetics analysis and a software which makes requests on a textual linguistic annotation. We will illustrate the use of this model in an example showing how to enrich an annotation by the automatic addition of values computed on the speech signal., En linguistique comme en phonétique, les corpus de parole comportent généralement deux types de ressources: les enregistrements et leurs annotations. Les outils de gestion de tels corpus doivent être capable de gérer ces deux types de ressources. Nous présentons ici une revue des outils et des formalismes utilisés pour la création de ces corpus. Nous présenterons aussi des critères pour nous aider a faire un choix parmis eux. Nous conclurons par la présentation d'un modèle connectant deux outils de gestion: un logiciel d'analyses phonétiques et un logiciel permettant de faire des requêtes sur des annotations linguistiques. Nous illustrerons l'utilisation de ce modèle par un exemple d'enrichissement automatique de l'annotation par des valeurs calculées par l'analyse du signal.
- Published
- 2004
30. Linguistic documents synchronizing sound and text
- Author
-
John B. Lowe, Michel Jacobson, Boyd Michailovsky, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
Linguistics and Language ,Markup language ,computer.internet_protocol ,Computer science ,XSL ,Text annotation ,02 engineering and technology ,computer.software_genre ,01 natural sciences ,Language and Linguistics ,Annotation ,0103 physical sciences ,0202 electrical engineering, electronic engineering, information engineering ,speech annotation ,010301 acoustics ,computer.programming_language ,Communication ,[SCCO.LING]Cognitive science/Linguistics ,Linguistics ,Computer Science Applications ,Metadata ,Scripting language ,Modeling and Simulation ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,020201 artificial intelligence & image processing ,Computer Vision and Pattern Recognition ,[SCCO.LING] Cognitive science/Linguistics ,field linguistics ,computer ,Software ,XML ,Sentence - Abstract
The goal of the LACITO linguistic archive project is to conserve and to make available for research recorded and transcribed oral traditions and other linguistic materials in (mainly) unwritten languages, giving simultaneous access to sound recordings and text annotation. The project uses simple, TEI-inspired XML markup for the kinds of annotation traditionally used in field linguistics. Transcriptions are segmented at the levels of, roughly, the sentence and the word, and annotation associated with different levels: metadata at the text level, free translation at the sentence level, interlinear glosses at the word level, etc. Time alignment is at the sentence (and optionally the word) level. To minimize in-house development and maintenance, the project uses standard software to the extent possible. Marked-up data is processed using widely-available XML/XSL/XSLT/XQL software tools, and displayed using standard browsers. The project has developed (1) an authoring tool, SoundIndex, to facilitate time-alignment, (2) a Java applet which enables standard browsers to access time-aligned speech, (3) XSL stylesheets which determine \"views\" on the data, and (4) a simple CGI interface permitting the user to choose documents and views and to enter queries. The paper describes these elements in detail. Current objectives are further development of the annotation with a view to linguistic research beyond simple browsing, and of a querying system (using a standard XML query processor) to exploit the annotated material.
- Published
- 2001
31. Les outils modernes pour la transcription de corpus de parole
- Author
-
Michel Jacobson, Jacobson, Michel, Langues et civilisations à tradition orale (LACITO), and Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[INFO.INFO-MM] Computer Science [cs]/Multimedia [cs.MM] ,linguistique de terrain ,[INFO.INFO-MM]Computer Science [cs]/Multimedia [cs.MM] ,speech annotation ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,field linguistic ,annotation de la parole - Abstract
Computer tools and formats for linguistic transcription and for the annotation of linguistic corpora are reviewed. Standardization of these tools and formats will facilitate the coding, exchange, and dissemination of information.A method of annotation for corpora of spoken language, developed as part of a program to archive linguistic field recordings, is presented as an example. The method relies as far as possible on emerging standards for structured text (XML, Unicode). Data formats for both sound and annotation and processing tools (editors, parsers, browsers) are discussed., Nous présentons ici une revue des différents outils et formalismes informatiques récents qui peuvent aider le linguiste à faire de la transcription, et plus généralement à faire de l'annotation sur des corpus de parole. La standardisation des ces outils et de ces formalismes facilite le codage, l'échange et la diffusion de l'information.Nous présentons à titre d'illustration une méthode d'annotation de corpus de parole mise au point dans le cadre d'un programme d'archivage d'enregistrements de terrain. Cette méthode utilise le plus possible les standards émergeants (Unicode et XML). Nous décrivons dans cet article à la fois la structure des données (enregistrements et annotations) et les outils de manipulation de ces dernières (parseurs, éditeurs, browsers, etc.).
32. Processus d'archivage : un pas de plus dans la démat
- Author
-
Michel Jacobson and Jacobson, Michel
- Subjects
[SHS.INFO.GEST] Humanities and Social Sciences/Library and information sciences/domain_shs.info.gest ,archivage numérique ,modélisation - Abstract
Le standard d'échange de données pour l'archivage (Seda), pose les fondements d'une dématérialisation pour les processus d'archivage.
33. Les archives sonores au LACITO
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
archives sonores ,support ,linguistique de terrain ,pérennisation ,diffusion ,enregistrement sonore ,General Earth and Planetary Sciences ,[INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL] ,[INFO.INFO-DL] Computer Science [cs]/Digital Libraries [cs.DL] ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,archives ouvertes ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
http://afas.mmsh.univ-aix.fr/Bulletin/Bulletin_AFAS_26.pdf; Cette présentation du projet "Archivage" du LACITO reprend celle exposée lors d'une journée d'étude de l'AFAS, à Paris, à la Bibliothèque nationale de France le 2 octobre 2003.Le programme Archivage assure la gestion des données issues des enquêtes de linguistique de terrain des chercheurs du laboratoire LACITO. Les 3 principaux buts sont : 1) Le sauvetage en vue de la pérennisation des données, 2)Leur diffusion, 3) La facilitation d'accès à ces données.
34. Gestion documentaire sur les corpus de parole
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
[INFO.INFO-DL]Computer Science [cs]/Digital Libraries [cs.DL] ,OAI ,[INFO.INFO-DL] Computer Science [cs]/Digital Libraries [cs.DL] ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,archives ouvertes ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Les corpus oraux en linguistique (enregistrements et annotations de ceux-ci), tout comme pour n'importe quel autre type de document, demandent une gestion documentaire appropriée. Ces documents doivent être décrits le plus finement possible d'une part pour pouvoir être retrouvés lorsqu'ils seront mélangés à d'autres et catalogués dans de vastes entrepôts de données, d'autre part afin de permettre leur maintenance. Ces descriptions ne seront pérennes, voire maintenables à moyen termes que si elles ont été faites de manière standardisée voire normalisée. La distribution de ces documents doit aussi être normalisée de manière à ce qu'ils soient le plus facilement accessible par le plus grand nombre.L'open Archive Initiative, à l'origine mis en place pour faciliter l'interopérabilité des grands serveurs de pre-prints peut servir de modèle pour la définition d'autres archives de données: par exemple dans le domaine des corpus oraux.
35. Cocoon une plateforme pour la conservation et la diffusion de ressources orales en sciences humaines et sociales
- Author
-
Michel Jacobson, Flora Badin, Séverine Guillaume, Jacobson, Michel, Laboratoire Ligérien de Linguistique (LLL), Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours (UT)-Centre National de la Recherche Scientifique (CNRS), Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Bibliothèque nationale de France (BnF)-Université d'Orléans (UO)-Université de Tours-Centre National de la Recherche Scientifique (CNRS)
- Subjects
corpus oraux ,archivage ,métadonnées ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
36. Corpus oraux en linguistique de terrain
- Author
-
Michel Jacobson, Langues et civilisations à tradition orale (LACITO), Université Sorbonne Nouvelle - Paris 3-Institut National des Langues et Civilisations Orientales (Inalco)-Centre National de la Recherche Scientifique (CNRS), and Jacobson, Michel
- Subjects
interlinear text ,minority languages ,[SCCO.LING] Cognitive science/Linguistics ,[SCCO.LING]Cognitive science/Linguistics ,oral corpora ,field linguistic ,normalisation - Abstract
28 pages; Speech corpora constructed in field linguistics are usually characterised by their small volume. They mostly concern little described languages, for which data are scarce. Field work also has its particularities, which means that recordings are closer to “spontaneous” than to laboratory speech. These characteristics influence the methods used for constituting and managing these corpora. To illustrate these specific methods, we will present a program for archiving field linguistics documents, aiming to preserve, perpetuate, normalise and circulate these documents. In particular, we will examine past and present formalisms and tools for managing corpora of this type. To finish, we will evoke some problems in organisation and law concerning the circulation of these resources.
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.