• Entrar
    Ver item 
    •   Página inicial
    • Teses & Dissertações
    • Teses & Dissertações
    • Ver item
    •   Página inicial
    • Teses & Dissertações
    • Teses & Dissertações
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Um modelo para integração de documentos XML em nível de instancia

    Thumbnail
    Visualizar/Abrir
    dissertacao.pdf (564.8Kb)
    Data
    2008
    Autor
    Nascimento, Aldo Monteiro do
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Um repositório integrado de dados é um repositório de dados provenientes de diversas fontes. Na construção de um repositório integrado há dois grandes problemas para agrupar instâncias: ambiguidade na identificação de entidades e conflito de valor de atributos. Nesta dissertação é proposto um modelo de dados que facilita a resolução de conflitos de valor de atributos representando-os explicitamente na estrutura integrada. Neste modelo, o repositório integrado é uma árvore XML gerada a partir de dados importados de uma ou mais fontes de dados XML, e os nodos são anotados com informações de proveniência. Essas anotações têm dois propósitos. Primeiro, elas representam a origem de cada elemento no repositório integrado. Esta informação é essencial para determinar a qualidade e confiança que podem ser atribuídas aos dados. Segundo, elas permitem que a porção da árvore XML oriunda da fonte de dados e armazenada no repositório integrado seja reconstruída. Essa capacidade é importante para a comparação do documento original com novas versões da mesma fonte possibilitando a atualização da base de dados local. Algoritmos para instanciar o repositório integrado de acordo com o modelo proposto e reconstruir a fonte de dados são apresentados nesta dissertação. Resultados de um estudo experimental conduzido para determinar o impacto das anotações no tamanho do repositório integrado, bem como o desempenho dos algoritmos propostos são também discutidos.
     
    Abstract: A datawarehouse is a repository of data imported from different sources. There are two major problems for merging instances from different sources in order to build a datawarehouse: entity identification ambiguity and attribute value conflict. In this dissertation we propose a data model that facilitates the resolution of value attribute conflicts by explicitly representing them in the integrated schema. In this model, the datawarehouse is an XML tree populated with data imported from one or more XML sources, and nodes are annotated with provenance information. The purpose of annotations are two fold: first, they represent the origin of every element in the datawarehouse. This information is essential for determining the quality and amount of trust one places on the data. Second, they allow the portion of source XML tree used to populate the warehouse to be reconstructed. This capability is important if one needs the original document to compare with new releases from the same source in order to update the local database. Algorithms for populating the warehouse according to the proposed model and for reconstructing the source data are presented. We also present results from an experimental study conducted to determine the impact of the annotations on the size of the warehouse and the performance of the proposed algorithms.
     
    URI
    https://hdl.handle.net/1884/18071
    Collections
    • Teses & Dissertações [10894]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV