• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Sociais e Aplicadas
    • MBA em Advanced Analytics e Business Optimization
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Sociais e Aplicadas
    • MBA em Advanced Analytics e Business Optimization
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Detecção automatizada de anomalias em métricas de qualidade de dados

    Thumbnail
    Visualizar/Abrir
    R - E - ISABELA FERNANDA CAPETTI.pdf (131.3Kb)
    Data
    2025
    Autor
    Capetti, Isabela Fernanda
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A crescente dependência de dados para tomadas de decisão e iniciativas de Inteligência Artificial tem intensificado a necessidade de monitoramento contínuo de qualidade. Entretanto, abordagens tradicionais, baseadas em regras manuais, são caras, pouco escaláveis e dependem de conhecimento especializado. Este trabalho propõe um sistema automatizado de detecção de anomalias em métricas de qualidade de dados, tratadas como séries temporais, com foco em simplicidade operacional e independência de regras de negócio. Utilizou-se a base pública Online Retail para simular ingestões diárias e gerar séries temporais de quatro métricas de qualidade: contagem de registros, proporção de nulos, média e tamanho médio de strings. Anomalias controladas foram injetadas para compor o gabarito de avaliação. Foram comparados métodos estatísticos simples (Média Móvel com Desvio Padrão, Naive e Naive Sazonal) e o modelo Prophet. Os resultados demonstraram que é possível alcançar níveis elevados de detecção (F1-Score em torno de 0.9) com mínima intervenção humana. Nenhum modelo apresentou domínio total em todos os cenários, indicando que a melhor escolha depende da métrica e do comportamento da série monitorada. O estudo confirma a viabilidade técnica da abordagem proposta e sugere aprimoramentos em otimização de hiperparâmetros do Prophet e desenvolvimento de uma camada de classificação da severidade das anomalias apontadas pelos modelos, a fim de criar uma priorização operacional
     
    Abstract: The growing dependence on data for decision-making and Artificial Intelligence initiatives has intensified the need for continuous quality monitoring. However, traditional approaches based on manual rules are costly, poorly scalable, and reliant on specialized knowledge. This work proposes an automated system for anomaly detection in data quality metrics, treated as time series, focusing on operational simplicity and independence from business rules. The public Online Retail dataset was used to simulate daily ingestions and generate time series for four quality metrics: record count, null proportion, mean, and average string length. Controlled anomalies were injected to establish the evaluation ground truth. Simple statistical methods (Moving Average with Standard Deviation, Naive, and Seasonal Naive) were compared with the Prophet model. The results demonstrated that it is possible to achieve high detection levels (F1-Score around 0.9) with minimal human intervention. No model achieved total dominance across all scenarios, indicating that the best choice depends on the specific metric and the behavior of the monitored series. The study confirms the technical viability of the proposed approach and suggests improvements regarding Prophet hyperparameter optimization and the development of a severity classification layer for the anomalies flagged by the models, aiming to establish operational prioritization
     
    URI
    https://hdl.handle.net/1884/100442
    Collections
    • MBA em Advanced Analytics e Business Optimization [24]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV