Avaliação de técnicas de classificação para dados desbalanceados

Della-Justina, Hellen Mathei

Visualizar/Abrir

R - E - HELLEN MATHEI DELLA JUSTINA.pdf (671.3Kb)

Data

2023

Autor

Della-Justina, Hellen Mathei

Metadata

Mostrar registro completo

Resumo

Resumo: Um conjunto de dados desbalanceado ocorre quando há diferença no número de amostras em diferentes classes. A fase de aprendizagem para a predição do modelo pode ser afetada em caso de dados desbalanceados. Então, neste estudo, foram aplicadas técnicas de oversampling e undesampling para lidar com dados desbalanceados. Os resultados mostraram um melhor desempenho do modelo Random Forest e das técnicas de oversampling para as métricas acurácia e precisão, um melhor desempenho das técnicas de oversampling para a métrica F1 e um melhor desempenho das técnicas de undersampling para as métricas recall e área sob a curva ROC

Abstract: An imbalanced data occurs when there is a difference between the distribution of classes within a dataset. Machine learning models can be influenced by imbalanced datasets. So, in this study, it was applied the oversampling and undersampling techniques to deal with imbalanced data. The results show a better model performance for Random Forest and oversampling techniques for accuracy and precision metrics, a better oversampling performance for F1 metric, and a better undersampling performance for recall and ROC curve metrics

URI

https://hdl.handle.net/1884/85885

Collections

Data Science & Big Data [138]