Avaliação do custo computacional de algoritmos de detecção de desvio de conceito
Resumo
Resumo: Este artigo analisa o desempenho de algoritmos de detecção de concept drift emfluxos de dados utilizando a árvore de Hoeffding e compara com a aplicação desse classificador sem nenhum gatilho. Foram aplicadas as técnicas ADWIN, KSWIN, DummyDriftDetector, PageHinkley, HDDM_W, HDDM_A, EDDM e a árvore de Hoeffding sem nenhum gatilho em oito conjuntos de dados reais: Forest Covertype, Electricity, Poker-Hand, Airlines, HTTP, KeyStroke, Phishing, ImageSegments. A avaliação focou em métricas de tempo de execução, uso da CPU, uso da memória e acurácia, com auxílio das seguintes bibliotecas Python: scikit-multiflow, psutil e time. Os resultados indicam que a aplicação da configuração padrão dos gatilhos nem sempre irá superar acurácia do classificador em questão, mas que é possível obter ganhos em acurácia e uso de memória(MB). Observou-se que é possível ter ganhos de acurácia, tanto ao custo de mais tempo de processamento como de menos tempo. Também, é possível obter ganhos de acurácia com menos consumo de memória. Abstract: This article analyzes the performance of concept drift detection algorithms in data streams using the Hoeffding’s tree and compares it with the application of this classifier without any trigger. The techniques ADWIN, KSWIN, DummyDriftDetector, PageHinkley, HDDM_W, HDDM_A, EDDM, and the Hoeffding’s tree without any trigger were applied to eight real datasets: Forest Covertype, Electricity, Poker-Hand, Airlines, HTTP, KeyStroke, Phishing, ImageSegments. The evaluation focused on metrics of execution time, CPU usage, memory usage, and accuracy, with the help of the following Python libraries: scikit-multiflow, psutil, and time. The results indicate that applying the default trigger configurations will not always surpass the accuracy of the classifier in question, but it is possible to achieve improvements in both accuracy and memory usage (MB). It was observed that accuracy gains can be achieved either at the cost of more processing time or with less time. Additionally, accuracy improvements can be obtained with lowermemory consumption.
Collections
- Data Science & Big Data [138]