dc.contributor.advisor | Oliveira, Luiz Eduardo Gomes de, 1995- | pt_BR |
dc.contributor.other | Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Data | pt_BR |
dc.creator | Della-Justina, Hellen Mathei | pt_BR |
dc.date.accessioned | 2023-12-27T17:46:09Z | |
dc.date.available | 2023-12-27T17:46:09Z | |
dc.date.issued | 2023 | pt_BR |
dc.identifier.uri | https://hdl.handle.net/1884/85885 | |
dc.description | Orientador: Prof. Dr. Luiz Eduardo Soares de Oliveira | pt_BR |
dc.description | Monografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science e Big Data | pt_BR |
dc.description | Inclui referências | pt_BR |
dc.description.abstract | Resumo: Um conjunto de dados desbalanceado ocorre quando há diferença no número de amostras em diferentes classes. A fase de aprendizagem para a predição do modelo pode ser afetada em caso de dados desbalanceados. Então, neste estudo, foram aplicadas técnicas de oversampling e undesampling para lidar com dados desbalanceados. Os resultados mostraram um melhor desempenho do modelo Random Forest e das técnicas de oversampling para as métricas acurácia e precisão, um melhor desempenho das técnicas de oversampling para a métrica F1 e um melhor desempenho das técnicas de undersampling para as métricas recall e área sob a curva ROC | pt_BR |
dc.description.abstract | Abstract: An imbalanced data occurs when there is a difference between the distribution of classes within a dataset. Machine learning models can be influenced by imbalanced datasets. So, in this study, it was applied the oversampling and undersampling techniques to deal with imbalanced data. The results show a better model performance for Random Forest and oversampling techniques for accuracy and precision metrics, a better oversampling performance for F1 metric, and a better undersampling performance for recall and ROC curve
metrics | pt_BR |
dc.format.extent | 1 recurso online : PDF. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language | Português | pt_BR |
dc.subject | Aprendizado do computador | pt_BR |
dc.subject | Probabilidades - Processamento de dados | pt_BR |
dc.title | Avaliação de técnicas de classificação para dados desbalanceados | pt_BR |
dc.type | TCC Especialização Digital | pt_BR |