Um modelo para integração de documentos XML em nível de instancia

Nascimento, Aldo Monteiro do

Visualizar/Abrir

dissertacao.pdf (564.8Kb)

Data

2008

Autor

Nascimento, Aldo Monteiro do

Metadata

Mostrar registro completo

Resumo

Resumo: Um repositório integrado de dados é um repositório de dados provenientes de diversas fontes. Na construção de um repositório integrado há dois grandes problemas para agrupar instâncias: ambiguidade na identificação de entidades e conflito de valor de atributos. Nesta dissertação é proposto um modelo de dados que facilita a resolução de conflitos de valor de atributos representando-os explicitamente na estrutura integrada. Neste modelo, o repositório integrado é uma árvore XML gerada a partir de dados importados de uma ou mais fontes de dados XML, e os nodos são anotados com informações de proveniência. Essas anotações têm dois propósitos. Primeiro, elas representam a origem de cada elemento no repositório integrado. Esta informação é essencial para determinar a qualidade e confiança que podem ser atribuídas aos dados. Segundo, elas permitem que a porção da árvore XML oriunda da fonte de dados e armazenada no repositório integrado seja reconstruída. Essa capacidade é importante para a comparação do documento original com novas versões da mesma fonte possibilitando a atualização da base de dados local. Algoritmos para instanciar o repositório integrado de acordo com o modelo proposto e reconstruir a fonte de dados são apresentados nesta dissertação. Resultados de um estudo experimental conduzido para determinar o impacto das anotações no tamanho do repositório integrado, bem como o desempenho dos algoritmos propostos são também discutidos.

Abstract: A datawarehouse is a repository of data imported from different sources. There are two major problems for merging instances from different sources in order to build a datawarehouse: entity identification ambiguity and attribute value conflict. In this dissertation we propose a data model that facilitates the resolution of value attribute conflicts by explicitly representing them in the integrated schema. In this model, the datawarehouse is an XML tree populated with data imported from one or more XML sources, and nodes are annotated with provenance information. The purpose of annotations are two fold: first, they represent the origin of every element in the datawarehouse. This information is essential for determining the quality and amount of trust one places on the data. Second, they allow the portion of source XML tree used to populate the warehouse to be reconstructed. This capability is important if one needs the original document to compare with new releases from the same source in order to update the local database. Algorithms for populating the warehouse according to the proposed model and for reconstructing the source data are presented. We also present results from an experimental study conducted to determine the impact of the annotations on the size of the warehouse and the performance of the proposed algorithms.

URI

https://hdl.handle.net/1884/18071

Collections

Teses & Dissertações [10894]