Show simple item record

dc.contributor.authorCavalieri, Osvaldo Marciopt_BR
dc.contributor.otherSunye, Marcos Sfair, 1964-pt_BR
dc.contributor.otherMuller Junior, Brunopt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informáticapt_BR
dc.date.accessioned2014-10-13T22:31:53Z
dc.date.available2014-10-13T22:31:53Z
dc.date.issued2014pt_BR
dc.identifier.urihttp://hdl.handle.net/1884/36297
dc.descriptionOrientador : Prof. Dr. Marcos Sfair Sunyept_BR
dc.descriptionCo-orientador : Prof. Dr. Bruno Müller Juniorpt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 17/07/2014pt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo: Diante o recente crescimento no volume de dados e queda dos preços de armazenamento, dados duplicados poderiam não representar problemas, apenas uso desnecessário de recursos. Porém, dependendo do contexto, por exemplo, na área da saúde, registros duplicados devem ser evitados pois podem causar sérios danos. Entre os aplicativos utilizados na gestão do Sistema Único de Saúde (SUS), o aplicativo CADSUS-multiplataforma, entre seus objetivos, visa evitar que existam cadastros de usuários duplicados, porém, este objetivo não é de todo cumprido. Este trabalho contextualiza o problema da duplicação na área da saúde, apresenta conceitos sobre qualidade de dados, descreve de maneira geral algumas ferramentas para deduplicação (identificação de duplicidades) e apresenta um processo de deduplicação e a aplicação destes numa base de dados CADSUS-multiplataforma. O processo utilizado segue o modelo proposto por Peter Christen, para auxiliar a execução é utilizada a ferramenta FEBRL - Freely Extensible Biomedical Record Linkage que o suporta, ainda, foram analisados cadastros reais de uma base de dados CADSUS de um município. O trabalho resultou na análise de 238.691 cadastros, destes 13,98% foram classificados como duplicidades efetivas e 0,40% como possíveis duplos. Dado o tempo para execução da deduplicação, aproximadamente 37 horas, o alto número de duplicidades encontradas, 33.368, e considerando a pequena quantidade de possíveis duplos, 973 cadastros, e ainda, o procedimento para eliminar as duplicidades no CADSUS, que deve ser feito manualmente, cadastro a cadastro, a utilização do processo de deduplicação para detectar os similares pode ser considerada viável, pois, sem aquele, a identificação dos cadastros similares também teria que ser manual, tornando o processo possivelmente impraticável.pt_BR
dc.description.abstractAbstract: Facing the recent growth in data volume and decreasing on the prices of storage, duplicate data may not represent problems, maybe only and unnecessary use of resources. However, depending on the context, e.g. in health, duplicate records should be avoided because it can cause serious damage. Among the applications used in the management of the Unified Health System (SUS), the CADSUS-multiplataforma aims, among other objectives, avoid duplicate user entries, but, this is not completely fulfilled.This work contextualizes the problem of duplication in health, presents concepts on data quality, describes some tools for deduplication (identification of duplicates) and expose a deduplication process and its application in CADSUS data base. To analyze real entries of a CADSUS municipal data base, the process described on this document follows the model proposed by Peter Christen. To assist the implementation of the model, the FEBRL - Freely Extensible Biomedical Record Linkage tool was used. From the analysis of 238.691 entries, 13,98% of them were classified as effective duplicates and 0,40 % as possible duplicates. Given the time for implementing deduplication , approximately 37 hours, the great amount of duplicates (33.368), and considering the small amount of possible duplicates (973 entries) even considering the procedure to eliminate duplications in CADSUS - which must be done manually, entry by entry - the use of the deduplication process to detect the alike can be considered viable. Without identification of similar entries, this process also have to be performed manually, possibly making the process impossible to be done.pt_BR
dc.format.extent84f. : il., grafs., tabs.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.relationDisponível em formato digitalpt_BR
dc.subjectSistemas de reconhecimento de padrõespt_BR
dc.subjectDissertaçõespt_BR
dc.subjectCiência da computaçãopt_BR
dc.titleUm método complementar ao processo de sanitização de registros duplicados em bases de dados Cadsus-multiplataformapt_BR
dc.typeDissertaçãopt_BR


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record