Customização em ambientes de qualidade de dados

Martinhago, Adriana Zanella

dc.contributor.advisor	Sunye, Marcos Sfair, 1964-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática	pt_BR
dc.creator	Martinhago, Adriana Zanella	pt_BR
dc.date.accessioned	2024-10-18T16:56:50Z
dc.date.available	2024-10-18T16:56:50Z
dc.date.issued	2006	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/4797
dc.description	Orientador: Marcos Sfair Sunye	pt_BR
dc.description	Inclui apêndices	pt_BR
dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 2006.	pt_BR
dc.description	Inclui bibliografia	pt_BR
dc.description.abstract	Resumo: A qualidade de dados é um tema que cresce em importância a medida que aumentam em número e volume as bases de dados existentes. Entre os seus principais desafios está a deduplicação, que busca reduzir a existência de registros distintos na base que representam a mesma entidade do mundo real. Outro desafio igualmente importante é o desempenho,visto que o problema envolve a comparação entre milhões de registros. O ambiente FEBRL foi desenvolvido com o objetivo de apoiar as tarefas de duplicação usando paralelismo. Este trabalho apresenta um estudo do ambiente FEBRL e as adaptações que foram feitas neste ambiente para que trabalhasse corretamente com conjunto de dados brasileiros, pois ele está padronizado para ser usado em conjunto de dados australianos. Devido a importância do paralelismo no processo de deduplicação de registros, é apresentado também neste trabalho o funcionamento do paralelismo no ambiente FEBRL e alguns problemas encontrados.	pt_BR
dc.description.abstract	Abstract: The data quality is a theme that becomes more important as long as the quantity and volume of the extand databases increase. Among its major challenges is the deduplicate, which seeks for reduction of the distinct records in the base, but represents the same entity of the real world. Another challenge as important as the first one is the performance, since the problem involves the comparison between bases with millions of the records. The FEBRL environment was developed with the purpose of supporting the deduplicate tasks using parallelism. This research presents a study about the FEBRL environment and the adaptation that was made in this environment to make it work properly together with Brazilians data sets, because it is standardized to be used with Australians data sets. And due to the importance of the parallelism in the deduplicate process of the records, we also decided to present in this research the functioning of the parallelism in the FEBRL environment and the problems that were found.	pt_BR
dc.format.extent	vii, 71f. : il., tabs.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.relation	Disponível em formato digital	pt_BR
dc.subject	Informática	pt_BR
dc.subject	Tecnologia da informação	pt_BR
dc.subject	Qualidade	pt_BR
dc.subject	Recuperação de dados (Computação)	pt_BR
dc.subject	Ciencia da computação	pt_BR
dc.title	Customização em ambientes de qualidade de dados	pt_BR
dc.type	Dissertação	pt_BR

Arquivos deste item

Nome:: dissertacao_adriana.pdf
Tamanho:: 848.4Kb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Teses & Dissertações [10563]
Coleção que armazena as Teses e Dissertações da UFPR.

Mostrar registro simples