| dc.contributor | Geraldo, Lewis Guilherme Theophilo | pt_BR |
| dc.contributor.advisor | Almeida, Eduardo Cunha de, 1977- | pt_BR |
| dc.contributor.other | Pena, Eduardo Henrique Monteiro | pt_BR |
| dc.contributor.other | Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Graduação em Ciência da Computação | pt_BR |
| dc.creator | Freitas, Alexandre de Oliveira Plugge | pt_BR |
| dc.date.accessioned | 2025-09-05T20:27:45Z | |
| dc.date.available | 2025-09-05T20:27:45Z | |
| dc.date.issued | 2024 | pt_BR |
| dc.identifier.uri | https://hdl.handle.net/1884/98308 | |
| dc.description | Orientador: Eduardo Cunha de Almeida | pt_BR |
| dc.description | Coorientador: Eduardo Henrique Monteiro Pena (informação extraída da folha de Aprovação) | pt_BR |
| dc.description | Monografia (graduação) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Graduação em Ciência da Computação | pt_BR |
| dc.description | Inclui referências | pt_BR |
| dc.description.abstract | Resumo : O perfilamento de dados é o processo de descoberta de metadados em conjuntos de dados, visando facilitar sua interpretação semântica [13]. As dependências funcionais (DFs) são um exemplo crucial de metadado, essenciais para a normalização de esquemas relacionais [14]. Contudo, a identificação manual de DFs é impraticável em grandes volumes de dados, o que impulsionou o desenvolvimento de algoritmos de automação, como o HyFD [14] para DFs exatas. Em contextos de dados ruidosos, as dependências funcionais aproximadas (DFAs) oferecem maior flexibilidade, com algoritmos proeminentes como Pyro [9] e FDX [22]. No entanto, esses algoritmos frequentemente geram um volume excessivo de dependências, dificultando a seleção dos bons candidatos. Para abordar essa questão, nosso estudo propõe um protocolo para a descoberta e o ranqueamento de DFs e DFAs, utilizando as métricas g3, RF1' e mu+ [16] para pontuar e selecionar as dependências mais relevantes para a normalização, além de demonstrar como as características intrínsecas de DFs e DFAs afetam sua avaliação pelas métricas | pt_BR |
| dc.description.abstract | Abstract : Data profiling is the process of discovering metadata within datasets, aiming to facilitate their semantic interpretation [13]. Functional dependencies (FDs) are a crucial example of such metadata, essential for normalizing relational schemas [13]. However, manual identification of FDs is impractical for large volumes of data, which propelled the development of automation algorithms, such as HyFD [14] for exact FDs. In noisy data contexts, approximate functional dependencies (AFDs) offer greater flexibility, with prominent algorithms like Pyro [9] and FDX [22]. Nevertheless, these algorithms often generate an excessive volume of dependencies, making it difficult to select promising candidates. To address this issue, our study proposes a protocol for the discovery and ranking of FDs and AFDs, utilizing the metrics g3, RF1', and mu+ [16] to score and select the most relevant dependencies for normalization. Furthermore, we demonstrate how intrinsic characteristics of FDs and AFDs affect their evaluation by these metrics | pt_BR |
| dc.format.extent | 1 recurso online : PDF. | pt_BR |
| dc.format.mimetype | application/pdf | pt_BR |
| dc.language | Português | pt_BR |
| dc.subject | Estruturas de dados (Computação) | pt_BR |
| dc.subject | Metadados | pt_BR |
| dc.title | Estudo comparativo entre abordagens de descoberta de dependências funcionais | pt_BR |
| dc.type | TCC Graduação Digital | pt_BR |