Um modelo para resolução de conflitos sobre repositório de dados XML
Resumo
Resumo: Garantir a qualidade dos dados quando se deseja manter informações provenientes de fontes heterogêneas é um desafio. Os dados importados destas fontes podem conter redundâncias, inconsistências ou ainda estar estruturados de formas completamente distintas. Existem diversas formas de melhorar a qualidade dos dados, tais como realizar bons mapeamentos entre fontes e repositório, identificar objetos semelhantes e manter uma única representação do dado. Para este trabalho, considera-se que questões como mapeamentos, integração e detecção de duplicidade já foram resolvidos. Desta forma, o modelo proposto tem seu foco no estágio subsequente, ou seja, a resolução dos conflitos gerados pela integração. A abordagem para resolução de conflitos considerada tem como base a aplicação de uma política de fusão. Esta política é uma composição de regras definidas pelo usuário para solucionar os conflitos em determinado contexto do repositório. Tais regras têm o objetivo de representar as decisões que o usuário toma quando realiza a limpeza manualmente. Desta forma, uma vez que a regra foi definida, os conflitos reincidentes são solucionados automaticamente nas integrações futuras. Além disso, o modelo proposto considera um histórico de resoluções para manter a proveniência dos dados descartados e permitir auditar asdecisões aplicadas. A manutenção da proveniência permite ao modelo reconstruir a fonte de dados original, evitando o armazenamento de uma cópia das mesmas. Para validar o modelo foi desenvolvida uma ferramenta, denominada XFusion, a qual permitiu executar todas as funcionalidades do modelo sobre um repositório integrado de dados. Adicionalmente, testes de desempenho foram executados e os resultados obtidos mostram a viabilidade do modelo. Abstract: Ensuring high quality data when collecting and integrating information from heterogeneous sources into a data warehouse is a challenging problem. In this master thesis, we propose a model for XML data integration, which allows the integrator to define data cleaning rules for solving value conflicts that may have been detected during the integration process. These rules resemble decisions that are made by users when data are manually curated and, once defined, conflicts detected in subsequent integration processes that are within the context of existing rules can be automatically solved without user intervention. Moreover, the proposed model maintains a resolution log for storing provenance information of discarded data and enable us to audit prior decisions. The maintenance of provenance allows the model to reconstruct the original data source, avoiding the need to maintain local copies. To validate our proposal, we developed XFusion, a tool that stores data integrated according to cleaning rules in a curated repository. dditionally, our experimental study shows the viability of implementing the model.
Collections
- Teses & Dissertações [10542]