Mostrar registro simples

dc.contributorGeraldo, Lewis Guilherme Theophilopt_BR
dc.contributor.advisorAlmeida, Eduardo Cunha de, 1977-pt_BR
dc.contributor.otherPena, Eduardo Henrique Monteiropt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Curso de Graduação em Ciência da Computaçãopt_BR
dc.creatorFreitas, Alexandre de Oliveira Pluggept_BR
dc.date.accessioned2025-09-05T20:27:45Z
dc.date.available2025-09-05T20:27:45Z
dc.date.issued2024pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/98308
dc.descriptionOrientador: Eduardo Cunha de Almeidapt_BR
dc.descriptionCoorientador: Eduardo Henrique Monteiro Pena (informação extraída da folha de Aprovação)pt_BR
dc.descriptionMonografia (graduação) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Graduação em Ciência da Computaçãopt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo : O perfilamento de dados é o processo de descoberta de metadados em conjuntos de dados, visando facilitar sua interpretação semântica [13]. As dependências funcionais (DFs) são um exemplo crucial de metadado, essenciais para a normalização de esquemas relacionais [14]. Contudo, a identificação manual de DFs é impraticável em grandes volumes de dados, o que impulsionou o desenvolvimento de algoritmos de automação, como o HyFD [14] para DFs exatas. Em contextos de dados ruidosos, as dependências funcionais aproximadas (DFAs) oferecem maior flexibilidade, com algoritmos proeminentes como Pyro [9] e FDX [22]. No entanto, esses algoritmos frequentemente geram um volume excessivo de dependências, dificultando a seleção dos bons candidatos. Para abordar essa questão, nosso estudo propõe um protocolo para a descoberta e o ranqueamento de DFs e DFAs, utilizando as métricas g3, RF1' e mu+ [16] para pontuar e selecionar as dependências mais relevantes para a normalização, além de demonstrar como as características intrínsecas de DFs e DFAs afetam sua avaliação pelas métricaspt_BR
dc.description.abstractAbstract : Data profiling is the process of discovering metadata within datasets, aiming to facilitate their semantic interpretation [13]. Functional dependencies (FDs) are a crucial example of such metadata, essential for normalizing relational schemas [13]. However, manual identification of FDs is impractical for large volumes of data, which propelled the development of automation algorithms, such as HyFD [14] for exact FDs. In noisy data contexts, approximate functional dependencies (AFDs) offer greater flexibility, with prominent algorithms like Pyro [9] and FDX [22]. Nevertheless, these algorithms often generate an excessive volume of dependencies, making it difficult to select promising candidates. To address this issue, our study proposes a protocol for the discovery and ranking of FDs and AFDs, utilizing the metrics g3, RF1', and mu+ [16] to score and select the most relevant dependencies for normalization. Furthermore, we demonstrate how intrinsic characteristics of FDs and AFDs affect their evaluation by these metricspt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectEstruturas de dados (Computação)pt_BR
dc.subjectMetadadospt_BR
dc.titleEstudo comparativo entre abordagens de descoberta de dependências funcionaispt_BR
dc.typeTCC Graduação Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples