1. Integration of semi-structured data with XML
- Author
-
Dang Ngoc, Tuyet Tram, Parallélisme, Réseaux, Systèmes, Modélisation (PRISM), Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)-Centre National de la Recherche Scientifique (CNRS), Université de Versailles-Saint Quentin en Yvelines, Gardarin Georges, Dang Ngoc, Tuyêt Trâm, and Centre National de la Recherche Scientifique (CNRS)-Université de Versailles Saint-Quentin-en-Yvelines (UVSQ)
- Subjects
adaptateur ,wrapper ,XML/DBC ,semi-structured algebra ,semantic caching ,XML ,query optimization ,médiateur ,cache sémantique ,base de données hétérogènes ,cost-model ,XML/DBC ,semi-structured data ,données semi-structurées ,MathML ,heterogeneous database ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,[INFO.INFO-HC] Computer Science [cs]/Human-Computer Interaction [cs.HC] ,XMLSchema ,mediator ,modèle de coût ,optimisation de requêtes ,algèbre semi-structurées - Abstract
In contrast to the traditional data, semi-structured data are irregular:data may be missed, different data types may be for the similar concepts,and if any the structure may not be well-known. One lacks actuallypredefined schemas to describe the data of the real world. It makes itdifficult to integrate the data from different sources.We propose a mediator architecture entirely based on XML. The objective ofthe mediator architecture is to federate distributed and heterogeneousdata sources. It relies on XQuery, the functional language that isdesigned to query across XML documents. The mediator parses the XQueryrequest, dispatch it to sources for evaluation and recompose results withadditional query evaluation.Query evaluation must be done by making best use of data specificity tocarry out an efficient optimization. We present the algebraXAlgebra based on the operators designed for XML. This algebra aims toconstruct execution plans for the evaluation of XQuery and processestuples of tree structure.These execution plans must be evaluated by a cost model andone of them with the minimal cost will be selected. In this thesis,we define a cost model for semi-structured data that is designed forour algebra.Since the data sources (DBMS, Web server, search engine, etc.) may be veryheterogeneous, they can have different capabilities of processing data,and their cost models may also be defined with different precision. So,in order to integrate such information in the mediation architecture, wehave to know how to communicate the information between the mediator andthe sources and to integrate them. To do this, we use XML-based languagessuch as XML-schema and MathML to export the metadata, cost formula andthe definitions of source capabilities. The exported information istransferred by an application interface called XML/DBC.Finally, diverse optimizations specific to this mediator architecturemust be considered. For this, we introduce a semantic cache based onthe DBMS prototype that store natively and efficiently XML data., Contrairement aux données traditionnelles, les données semi-structuréessont irrégulières : des données peuvent manquer, des conceptssimilaires peuvent être représentés par différents types de données,et les structures même peuvent être mal connues. Cette absence de schéma prédéfini, permettant de tenir compte de toutes les donnéesdu monde extérieur, présente l'inconvénient de complexifier lesalgorithmes d'intégration des données de différentes sources.Nous proposons une architecture de médiation basée entièrement sur XML.L'objectif de cette architecture de médiation est de fédérer des sources dedonnées distribuées de différents types.Elle s'appuie sur le langage XQuery, un langage fonctionnelconçu pour formuler des requêtes sur des documents XML. Le médiateur analyseles requêtes exprimées en XQuery et répartit l'exécution de la requêtesur les différentes sources avant de recomposer les résultats.L'évaluation des requêtes doit se faire en exploitant au maximum lesspécificités des données et permettre une optimisation efficace.Nous décrivons l'algèbre XAlgebre à base d'opérateurs conçuspour XML. Cette algèbre a pour but de construire des plans d'exécution pourl'évaluation de requêtes XQuery et traiter des tuples d'arbres XML.Ces plans d'exécution doivent pouvoir être modélisés par un modèlede coût et celui de coût minimum sera sélectionné pour l'exécution. Dans cette thèse, nous définissons un modèle de coût pour les donnéessemi-structurées adapté à notre algèbre.Les sources de données (SGBD, serveurs Web, moteur de recherche)peuvent être très hétérogènes, elles peuvent avoir descapacités de traitement de données très différentes, mais aussi avoirdes modèles de coût plus ou moins définis. Pour intégrer ces différentes informations dansl'architecture de médiation, nous devons déterminer comment communiquerces informations entre le médiateur et les sources, et comment les intégrer.Pour cela, nous utilisons des langages basés sur XML comme XML-Schema et MathMLpour exporter les informations de métadonnées, de formules de coûtset de capacité de sources.Ces informations exportées sont communiquées par l'intermédiaire d'une interfaceapplicative nommée XML/DBC.Enfin, des optimisations diverses spécifiques à l'architecture de médiationdoivent être considérées. Nous introduisons pour cela un cache sémantiquebasé sur un prototype de SGBD stockant efficacement des données XMLen natif.
- Published
- 2003