dc.contributor.advisor | Bonat, Wagner Hugo, 1985- | pt_BR |
dc.contributor.other | Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Data | pt_BR |
dc.creator | Furriel, Wesley Oliveira | pt_BR |
dc.date.accessioned | 2023-12-20T17:36:44Z | |
dc.date.available | 2023-12-20T17:36:44Z | |
dc.date.issued | 2023 | pt_BR |
dc.identifier.uri | https://hdl.handle.net/1884/85723 | |
dc.description | Orientador: Prof. Wagner Hugo Bonat | pt_BR |
dc.description | Artigo apresentado como Trabalho de Conclusão de Curso | pt_BR |
dc.description | Monografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science e Big Data | pt_BR |
dc.description | Inclui referências | pt_BR |
dc.description.abstract | Resumo: Este trabalho teve como objetivo avaliar o desempenho de modelos de regressão e classificação binária em conjuntos de dados com diferentes níveis de desbalanceamento via oversampling e undersampling aleatório em um problema de risco de crédito. Os modelos de regressão logística, random forest, catboost e lgbm foram treinados e validados inicialmente pelas amostras obtidas pelo método Stratified K-Fold. Emseguida, foram avaliados em uma amostra com a distribuição original da variável resposta, permitindo uma comparação entre os resultados obtidos. Desse modo, observou-se, que não ocorreram ganhos relevantes ao alancear os conjuntos de dados, ainda assim, foram constatadas quedas nos valores de F1-Score e LogLoss para os balanceamentos de 50%. Além disso, para os experimentos com maior desbalanceamento, foram identificados maiores níveis de variabilidade entre as amostras de treinamento e assimetrias mais acentuadas na distribuição de probabilidade predita. | pt_BR |
dc.description.abstract | Abstract: This study aimed to evaluate the performance of binary classification models on datasets with different levels of imbalance using oversampling and undersampling techniques in a credit risk problem. Themodels were initially trained and validated using samples fromthe Stratified K-Fold method. They were then evaluated on a sample with the original distribution of the response variable, allowing for a comparison of the results obtained. It was observed that there were no significant gains from balancing the response variable, only decreases in the values of F1-Score and LogLoss for the 50% balancing. Furthermore, for experiments with higher imbalance, higher levels of variability were identified among the training samples and more pronounced asymmetries in the predicted probability distribution. | pt_BR |
dc.format.extent | 1 recurso online : PDF. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language | Português | pt_BR |
dc.subject | Aprendizado do computador | pt_BR |
dc.subject | Analise de regressão | pt_BR |
dc.subject | Avaliação de riscos | pt_BR |
dc.title | Avaliação do impacto de conjuntos de dados desbalanceadas em modelos de classificação para risco de crédito | pt_BR |
dc.type | TCC Especialização Digital | pt_BR |