• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Streaming and Concept Drift : a comparative Study

    Thumbnail
    Visualizar/Abrir
    R - E - ANTONIO RICARDO LUNARDI.pdf (213.9Kb)
    Data
    2024
    Autor
    Lunardi, Antonio Ricardo
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Este estudo começa por discutir os princípios de dados em fluxo (streaming) e o fenômeno de desvio de conceito (concept drift). Com o intuito de determinar o quão bons são algoritmos para detecção de desvio de conceito associados a modelos de aprendizado de máquina, vários testes são conduzidos com River, uma API para Python. Conjuntos de dados públicos são examinados a fimde verificar os possíveis comportamentos dos modelos. Algoritmos de detecção são usados como gatilhos para retreinar e reconstruir modelos, tornando o processo de aprendizagem adaptativo para lidar com desvio de conceito. Conjuntos de dados que aparentemente possuem desvio de conceito foram utilizados para treinar os modelos propostos, todo algoritmos de detecção se saiu melhor que os demais pelo menos para um conjunto de dados. Desse modo, todos os detectores provaram ser de alguma forma úteis, apesar de alguns deles terem a acurácia média menor do que a linha de base para decisão (baseline). Por outro lado, para os conjuntos de dados aparentemente sem desvio de conceito, os detectores pioraram o desempenho dos modelos, ou simplesmente não fizeram diferença nos casos de melhor resultado. Isso leva o presente estudo a concluir que em cenários de dados reais, deve-se utilizar uma linha de base que considera que o fluxo de dados não apresenta nenhum desvio.
     
    Abstract: This study starts by discussing the fundamentals of data streaming and concept drift. In order to verify how good are the drift detector algorithms combined with machine learning models, many tests were conducted with Python River API. Available public streaming datasets were divided into two groups aiming to verify the models possible distinct behaviors. Detecting algorithm were used as triggers to retrain and rebuild themodels, making the process adaptive to deal with concept drifts. The results showed that when dealing with streaming datasets with probable concept drift, every tested drift detector was the relative best one at least for one dataset. Thus, all detectors proved themselves somehow useful. However, some models had themean accuracy lower than the baseline mean. On the other hand, in the case of streaming datasets with apparently no drift, the detectors have worsen, or in better cases didn’t improve the models at all. This leads the present study to conclude that in real world scenarios, it is crucial to have a baseline that supposes that the stream doesn’t present any drift.
     
    URI
    https://hdl.handle.net/1884/93465
    Collections
    • Data Science & Big Data [138]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV