Mostrar registro simples

dc.contributor.advisorAlmeida, Paulo Ricardo Lisboa de, 1989-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Datapt_BR
dc.creatorLunardi, Antonio Ricardopt_BR
dc.date.accessioned2024-12-03T11:52:20Z
dc.date.available2024-12-03T11:52:20Z
dc.date.issued2024pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/93465
dc.descriptionOrientador: Prof. Paulo Ricardo Lisboa de Almeidapt_BR
dc.descriptionMonografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Datapt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo: Este estudo começa por discutir os princípios de dados em fluxo (streaming) e o fenômeno de desvio de conceito (concept drift). Com o intuito de determinar o quão bons são algoritmos para detecção de desvio de conceito associados a modelos de aprendizado de máquina, vários testes são conduzidos com River, uma API para Python. Conjuntos de dados públicos são examinados a fimde verificar os possíveis comportamentos dos modelos. Algoritmos de detecção são usados como gatilhos para retreinar e reconstruir modelos, tornando o processo de aprendizagem adaptativo para lidar com desvio de conceito. Conjuntos de dados que aparentemente possuem desvio de conceito foram utilizados para treinar os modelos propostos, todo algoritmos de detecção se saiu melhor que os demais pelo menos para um conjunto de dados. Desse modo, todos os detectores provaram ser de alguma forma úteis, apesar de alguns deles terem a acurácia média menor do que a linha de base para decisão (baseline). Por outro lado, para os conjuntos de dados aparentemente sem desvio de conceito, os detectores pioraram o desempenho dos modelos, ou simplesmente não fizeram diferença nos casos de melhor resultado. Isso leva o presente estudo a concluir que em cenários de dados reais, deve-se utilizar uma linha de base que considera que o fluxo de dados não apresenta nenhum desvio.pt_BR
dc.description.abstractAbstract: This study starts by discussing the fundamentals of data streaming and concept drift. In order to verify how good are the drift detector algorithms combined with machine learning models, many tests were conducted with Python River API. Available public streaming datasets were divided into two groups aiming to verify the models possible distinct behaviors. Detecting algorithm were used as triggers to retrain and rebuild themodels, making the process adaptive to deal with concept drifts. The results showed that when dealing with streaming datasets with probable concept drift, every tested drift detector was the relative best one at least for one dataset. Thus, all detectors proved themselves somehow useful. However, some models had themean accuracy lower than the baseline mean. On the other hand, in the case of streaming datasets with apparently no drift, the detectors have worsen, or in better cases didn’t improve the models at all. This leads the present study to conclude that in real world scenarios, it is crucial to have a baseline that supposes that the stream doesn’t present any drift.pt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectFluxo de dados (Computação)pt_BR
dc.subjectTecnologia streaming (Telecomunicação)pt_BR
dc.subjectAlgorítmos computacionaispt_BR
dc.subjectAprendizado do computadorpt_BR
dc.titleStreaming and Concept Drift : a comparative Studypt_BR
dc.typeTCC Especialização Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples