Avaliação de técnicas de classificação para dados desbalanceados
Resumo
Resumo: Um conjunto de dados desbalanceado ocorre quando há diferença no número de amostras em diferentes classes. A fase de aprendizagem para a predição do modelo pode ser afetada em caso de dados desbalanceados. Então, neste estudo, foram aplicadas técnicas de oversampling e undesampling para lidar com dados desbalanceados. Os resultados mostraram um melhor desempenho do modelo Random Forest e das técnicas de oversampling para as métricas acurácia e precisão, um melhor desempenho das técnicas de oversampling para a métrica F1 e um melhor desempenho das técnicas de undersampling para as métricas recall e área sob a curva ROC Abstract: An imbalanced data occurs when there is a difference between the distribution of classes within a dataset. Machine learning models can be influenced by imbalanced datasets. So, in this study, it was applied the oversampling and undersampling techniques to deal with imbalanced data. The results show a better model performance for Random Forest and oversampling techniques for accuracy and precision metrics, a better oversampling performance for F1 metric, and a better undersampling performance for recall and ROC curve
metrics
Collections
- Data Science & Big Data [107]