Back to Search Start Over

Méthodes à noyaux appliquées aux textes structurés

Authors :
Sujeevan Aseervatham
Emmanuel Viennet
Laboratoire d'Informatique de Paris-Nord (LIPN)
Université Sorbonne Paris Cité (USPC)-Institut Galilée-Université Paris 13 (UP13)-Centre National de la Recherche Scientifique (CNRS)
Aseervatham, Sujeevan
Source :
Revue des Nouvelles Technologies de l'Information, Revue des Nouvelles Technologies de l'Information, Editions RNTI, 2008, pp.185-205, HAL
Publication Year :
2008
Publisher :
HAL CCSD, 2008.

Abstract

National audience; De nombreuses techniques d'apprentissage numérique appliquées au traitement de données textuelles utilisent une représentation du texte en "sac de mot". Ce codage, qui a l'avantage de la simplicité, n'utilise que les fréquences d'apparition des mots dans les documents et perd toute information liée à l'ordre des éléments (ordre des mots, structure en paragraphes ou sections, etc). Depuis une petite dizaine d'années, une nouvelle famille d'algorithme d'apprentissage, basée sur la notion de noyaux, fait l'objet d'intenses recherches. Ces noyaux permettent de définir des mesures de similarité utilisables dans de nombreux algorithmes d'apprentissage statistique (de l'analyse discriminante de Fisher aux machines à vecteur de support). Récemment, l'utilisation de noyaux spécifiques pour le traitement de données textuelles structurées a commencé à faire l'objet de recherches. Dans le cadre de la sous-tâche 3.12 du projet InfoM@gic, le LIPN a décidé de travailler sur l'application de ces méthodes à noyau au traitement de données textuelles structurées. Ce rapport intermédiaire présente un bref état de l'art dans ce domaine. Nous passons en revue les principaux types de noyaux proposés ces dernières années pour le traitement des séquences et plus généralement des données structurées (arbres, graphes).

Details

Language :
French
ISSN :
17641667
Database :
OpenAIRE
Journal :
Revue des Nouvelles Technologies de l'Information, Revue des Nouvelles Technologies de l'Information, Editions RNTI, 2008, pp.185-205, HAL
Accession number :
edsair.dedup.wf.001..483cab61b4af194d39ed48969a757ca2