• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Graduação
    • Ciência da Computação
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Graduação
    • Ciência da Computação
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Estudo comparativo entre abordagens de descoberta de dependências funcionais

    Thumbnail
    Visualizar/Abrir
    R G ALEXANDRE DE OLIVEIRA PLUGGE FREITAS.pdf (1.925Mb)
    Data
    2024
    Autor
    Freitas, Alexandre de Oliveira Plugge
    Metadata
    Mostrar registro completo
    Resumo
    Resumo : O perfilamento de dados é o processo de descoberta de metadados em conjuntos de dados, visando facilitar sua interpretação semântica [13]. As dependências funcionais (DFs) são um exemplo crucial de metadado, essenciais para a normalização de esquemas relacionais [14]. Contudo, a identificação manual de DFs é impraticável em grandes volumes de dados, o que impulsionou o desenvolvimento de algoritmos de automação, como o HyFD [14] para DFs exatas. Em contextos de dados ruidosos, as dependências funcionais aproximadas (DFAs) oferecem maior flexibilidade, com algoritmos proeminentes como Pyro [9] e FDX [22]. No entanto, esses algoritmos frequentemente geram um volume excessivo de dependências, dificultando a seleção dos bons candidatos. Para abordar essa questão, nosso estudo propõe um protocolo para a descoberta e o ranqueamento de DFs e DFAs, utilizando as métricas g3, RF1' e mu+ [16] para pontuar e selecionar as dependências mais relevantes para a normalização, além de demonstrar como as características intrínsecas de DFs e DFAs afetam sua avaliação pelas métricas
     
    Abstract : Data profiling is the process of discovering metadata within datasets, aiming to facilitate their semantic interpretation [13]. Functional dependencies (FDs) are a crucial example of such metadata, essential for normalizing relational schemas [13]. However, manual identification of FDs is impractical for large volumes of data, which propelled the development of automation algorithms, such as HyFD [14] for exact FDs. In noisy data contexts, approximate functional dependencies (AFDs) offer greater flexibility, with prominent algorithms like Pyro [9] and FDX [22]. Nevertheless, these algorithms often generate an excessive volume of dependencies, making it difficult to select promising candidates. To address this issue, our study proposes a protocol for the discovery and ranking of FDs and AFDs, utilizing the metrics g3, RF1', and mu+ [16] to score and select the most relevant dependencies for normalization. Furthermore, we demonstrate how intrinsic characteristics of FDs and AFDs affect their evaluation by these metrics
     
    URI
    https://hdl.handle.net/1884/98308
    Collections
    • Ciência da Computação [10]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV