Back to Search Start Over

Analysis of Gallica Usage Traces: A Log Files Analysis of Gallica Website

Authors :
Nouvellet, Adrien
Beaudouin, Valérie
d'Alché-Buc, Florence
Prieur, Christophe
Roueff, François
Laboratoire Traitement et Communication de l'Information (LTCI)
Télécom ParisTech-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)
Télécom ParisTech
Institut interdisciplinaire de l’innovation (I3, une unité mixte de recherche CNRS (UMR 9217))
Centre National de la Recherche Scientifique (CNRS)-École polytechnique (X)-Télécom ParisTech-MINES ParisTech - École nationale supérieure des mines de Paris
Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)
Institut Mines-Télécom [Paris] (IMT)-Télécom Paris
TeraLab
Bibliothèque nationale de France
BibliLab
Source :
[Rapport de recherche] Télécom ParisTech; Bibliothèque nationale de France. 2017
Publication Year :
2017
Publisher :
HAL CCSD, 2017.

Abstract

Gallica is one of the major digital libraries available for free via the Internet. In the context of the Bibli-Lab, research partnership between the Bibliothèque nationale de France and Télécom ParisTech, and with the support of TeraLab, a new analysis of Gallica servers’ connection logs was carried out, applying machine-learning methods to them. The aim was not to collect information on users or their profiles but rather to use logs, which act as records of usage, as a basis for identifying typical clickstreams. For 15 months (April 2016-July 2017), a researcher on postdoctoral contract and under the supervision of four of Télécom ParisTech’s research professors, developed a data clusterisation algorithm enabling grouping of Gallica sessions with similarities in sequencing and duration of actions . Logs analysed covered a range of durations, from a week to a month, with systematic checking of the stability of models obtained. The preferred methodological choice was to have statistical models dialogue with results obtained from other approaches (ethnographic observations, interviews, etc. ). Such dialogue enabled the researchers involved to: a) set departure parameters (definition of a session and the elementary actions composing it); b) check models obtained, which were highly sensitive to technical artefacts; and c) propose initial keys to interpretation.; Gallica est l'une des plus grandes bibliothèques numériques librement accessible sur le web. Dans le cadre du Bibli-Lab, partenariat de recherche entre la Bibliothèque nationale de France et Télécom ParisTech, et avec le soutien du TeraLab, a été conduite une analyse inédite des logs de connexion aux serveurs de Gallica, en leur appliquant des méthodes d’apprentissage automatique (machine learning). L’objectif n’était pas de connaître les usagers ni leurs profils mais, en partant de traces d’usages que sont les logs, d’identifier des parcours-types. Durant 15 mois (avril 2016-juillet 2017), un chercheur en contrat postdoctoral encadré par quatre enseignants-chercheurs de Télécom ParisTech , a mis au point un algorithme de classification (ou clusterisation) permettant de regrouper des sessions de Gallica présentant des similitudes dans l’enchaînement des actions. Les logs analysés couvraient des durées variables, allant d’une semaine à un mois, avec vérification systématique de la stabilité des modèles obtenus. Le choix méthodologique fort a été ici de faire dialoguer les modèles statistiques avec les résultats issus d’autres approches (observations ethnographiques, entretiens, etc. ). Ce dialogue a permis à la fois de : a) fixer les paramètres de départ (durée d’une session, définition des actions élémentaires sur Gallica) ; b) contrôler les modèles obtenus, extrêmement sensibles aux artefacts techniques ; c) proposer des premières clés d’interprétation.

Details

Language :
French
Database :
OpenAIRE
Journal :
[Rapport de recherche] Télécom ParisTech; Bibliothèque nationale de France. 2017
Accession number :
edsair.od.......212..d72893648da39e67d93ac1985c58a235