Estudo comparativo entre abordagens de descoberta de dependências funcionais

Freitas, Alexandre de Oliveira Plugge

dc.contributor	Geraldo, Lewis Guilherme Theophilo	pt_BR
dc.contributor.advisor	Almeida, Eduardo Cunha de, 1977-	pt_BR
dc.contributor.other	Pena, Eduardo Henrique Monteiro	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Graduação em Ciência da Computação	pt_BR
dc.creator	Freitas, Alexandre de Oliveira Plugge	pt_BR
dc.date.accessioned	2025-09-05T20:27:45Z
dc.date.available	2025-09-05T20:27:45Z
dc.date.issued	2024	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/98308
dc.description	Orientador: Eduardo Cunha de Almeida	pt_BR
dc.description	Coorientador: Eduardo Henrique Monteiro Pena (informação extraída da folha de Aprovação)	pt_BR
dc.description	Monografia (graduação) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Graduação em Ciência da Computação	pt_BR
dc.description	Inclui referências	pt_BR
dc.description.abstract	Resumo : O perfilamento de dados é o processo de descoberta de metadados em conjuntos de dados, visando facilitar sua interpretação semântica [13]. As dependências funcionais (DFs) são um exemplo crucial de metadado, essenciais para a normalização de esquemas relacionais [14]. Contudo, a identificação manual de DFs é impraticável em grandes volumes de dados, o que impulsionou o desenvolvimento de algoritmos de automação, como o HyFD [14] para DFs exatas. Em contextos de dados ruidosos, as dependências funcionais aproximadas (DFAs) oferecem maior flexibilidade, com algoritmos proeminentes como Pyro [9] e FDX [22]. No entanto, esses algoritmos frequentemente geram um volume excessivo de dependências, dificultando a seleção dos bons candidatos. Para abordar essa questão, nosso estudo propõe um protocolo para a descoberta e o ranqueamento de DFs e DFAs, utilizando as métricas g3, RF1' e mu+ [16] para pontuar e selecionar as dependências mais relevantes para a normalização, além de demonstrar como as características intrínsecas de DFs e DFAs afetam sua avaliação pelas métricas	pt_BR
dc.description.abstract	Abstract : Data profiling is the process of discovering metadata within datasets, aiming to facilitate their semantic interpretation [13]. Functional dependencies (FDs) are a crucial example of such metadata, essential for normalizing relational schemas [13]. However, manual identification of FDs is impractical for large volumes of data, which propelled the development of automation algorithms, such as HyFD [14] for exact FDs. In noisy data contexts, approximate functional dependencies (AFDs) offer greater flexibility, with prominent algorithms like Pyro [9] and FDX [22]. Nevertheless, these algorithms often generate an excessive volume of dependencies, making it difficult to select promising candidates. To address this issue, our study proposes a protocol for the discovery and ranking of FDs and AFDs, utilizing the metrics g3, RF1', and mu+ [16] to score and select the most relevant dependencies for normalization. Furthermore, we demonstrate how intrinsic characteristics of FDs and AFDs affect their evaluation by these metrics	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Estruturas de dados (Computação)	pt_BR
dc.subject	Metadados	pt_BR
dc.title	Estudo comparativo entre abordagens de descoberta de dependências funcionais	pt_BR
dc.type	TCC Graduação Digital	pt_BR

Arquivos deste item

Nome:: R G ALEXANDRE DE OLIVEIRA ...
Tamanho:: 1.925Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Ciência da Computação [10]

Mostrar registro simples