Mostrar registro simples

dc.contributor.advisorSunye, Marcos Sfair, 1964-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informáticapt_BR
dc.creatorMartinhago, Adriana Zanellapt_BR
dc.date.accessioned2024-10-18T16:56:50Z
dc.date.available2024-10-18T16:56:50Z
dc.date.issued2006pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/4797
dc.descriptionOrientador: Marcos Sfair Sunyept_BR
dc.descriptionInclui apêndicespt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 2006.pt_BR
dc.descriptionInclui bibliografiapt_BR
dc.description.abstractResumo: A qualidade de dados é um tema que cresce em importância a medida que aumentam em número e volume as bases de dados existentes. Entre os seus principais desafios está a deduplicação, que busca reduzir a existência de registros distintos na base que representam a mesma entidade do mundo real. Outro desafio igualmente importante é o desempenho,visto que o problema envolve a comparação entre milhões de registros. O ambiente FEBRL foi desenvolvido com o objetivo de apoiar as tarefas de duplicação usando paralelismo. Este trabalho apresenta um estudo do ambiente FEBRL e as adaptações que foram feitas neste ambiente para que trabalhasse corretamente com conjunto de dados brasileiros, pois ele está padronizado para ser usado em conjunto de dados australianos. Devido a importância do paralelismo no processo de deduplicação de registros, é apresentado também neste trabalho o funcionamento do paralelismo no ambiente FEBRL e alguns problemas encontrados.pt_BR
dc.description.abstractAbstract: The data quality is a theme that becomes more important as long as the quantity and volume of the extand databases increase. Among its major challenges is the deduplicate, which seeks for reduction of the distinct records in the base, but represents the same entity of the real world. Another challenge as important as the first one is the performance, since the problem involves the comparison between bases with millions of the records. The FEBRL environment was developed with the purpose of supporting the deduplicate tasks using parallelism. This research presents a study about the FEBRL environment and the adaptation that was made in this environment to make it work properly together with Brazilians data sets, because it is standardized to be used with Australians data sets. And due to the importance of the parallelism in the deduplicate process of the records, we also decided to present in this research the functioning of the parallelism in the FEBRL environment and the problems that were found.pt_BR
dc.format.extentvii, 71f. : il., tabs.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.relationDisponível em formato digitalpt_BR
dc.subjectInformáticapt_BR
dc.subjectTecnologia da informaçãopt_BR
dc.subjectQualidadept_BR
dc.subjectRecuperação de dados (Computação)pt_BR
dc.subjectCiencia da computaçãopt_BR
dc.titleCustomização em ambientes de qualidade de dadospt_BR
dc.typeDissertaçãopt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples