Streaming and Concept Drift : a comparative Study

Lunardi, Antonio Ricardo

dc.contributor.advisor	Almeida, Paulo Ricardo Lisboa de, 1989-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Data	pt_BR
dc.creator	Lunardi, Antonio Ricardo	pt_BR
dc.date.accessioned	2024-12-03T11:52:20Z
dc.date.available	2024-12-03T11:52:20Z
dc.date.issued	2024	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/93465
dc.description	Orientador: Prof. Paulo Ricardo Lisboa de Almeida	pt_BR
dc.description	Monografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Data	pt_BR
dc.description	Inclui referências	pt_BR
dc.description.abstract	Resumo: Este estudo começa por discutir os princípios de dados em fluxo (streaming) e o fenômeno de desvio de conceito (concept drift). Com o intuito de determinar o quão bons são algoritmos para detecção de desvio de conceito associados a modelos de aprendizado de máquina, vários testes são conduzidos com River, uma API para Python. Conjuntos de dados públicos são examinados a fimde verificar os possíveis comportamentos dos modelos. Algoritmos de detecção são usados como gatilhos para retreinar e reconstruir modelos, tornando o processo de aprendizagem adaptativo para lidar com desvio de conceito. Conjuntos de dados que aparentemente possuem desvio de conceito foram utilizados para treinar os modelos propostos, todo algoritmos de detecção se saiu melhor que os demais pelo menos para um conjunto de dados. Desse modo, todos os detectores provaram ser de alguma forma úteis, apesar de alguns deles terem a acurácia média menor do que a linha de base para decisão (baseline). Por outro lado, para os conjuntos de dados aparentemente sem desvio de conceito, os detectores pioraram o desempenho dos modelos, ou simplesmente não fizeram diferença nos casos de melhor resultado. Isso leva o presente estudo a concluir que em cenários de dados reais, deve-se utilizar uma linha de base que considera que o fluxo de dados não apresenta nenhum desvio.	pt_BR
dc.description.abstract	Abstract: This study starts by discussing the fundamentals of data streaming and concept drift. In order to verify how good are the drift detector algorithms combined with machine learning models, many tests were conducted with Python River API. Available public streaming datasets were divided into two groups aiming to verify the models possible distinct behaviors. Detecting algorithm were used as triggers to retrain and rebuild themodels, making the process adaptive to deal with concept drifts. The results showed that when dealing with streaming datasets with probable concept drift, every tested drift detector was the relative best one at least for one dataset. Thus, all detectors proved themselves somehow useful. However, some models had themean accuracy lower than the baseline mean. On the other hand, in the case of streaming datasets with apparently no drift, the detectors have worsen, or in better cases didn’t improve the models at all. This leads the present study to conclude that in real world scenarios, it is crucial to have a baseline that supposes that the stream doesn’t present any drift.	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Fluxo de dados (Computação)	pt_BR
dc.subject	Tecnologia streaming (Telecomunicação)	pt_BR
dc.subject	Algorítmos computacionais	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.title	Streaming and Concept Drift : a comparative Study	pt_BR
dc.type	TCC Especialização Digital	pt_BR

Arquivos deste item

Nome:: R - E - ANTONIO RICARDO LUNARDI.pdf
Tamanho:: 213.9Kb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Data Science & Big Data [138]

Mostrar registro simples