Avaliação do impacto de conjuntos de dados desbalanceadas em modelos de classificação para risco de crédito
Resumo
Resumo: Este trabalho teve como objetivo avaliar o desempenho de modelos de regressão e classificação binária em conjuntos de dados com diferentes níveis de desbalanceamento via oversampling e undersampling aleatório em um problema de risco de crédito. Os modelos de regressão logística, random forest, catboost e lgbm foram treinados e validados inicialmente pelas amostras obtidas pelo método Stratified K-Fold. Emseguida, foram avaliados em uma amostra com a distribuição original da variável resposta, permitindo uma comparação entre os resultados obtidos. Desse modo, observou-se, que não ocorreram ganhos relevantes ao alancear os conjuntos de dados, ainda assim, foram constatadas quedas nos valores de F1-Score e LogLoss para os balanceamentos de 50%. Além disso, para os experimentos com maior desbalanceamento, foram identificados maiores níveis de variabilidade entre as amostras de treinamento e assimetrias mais acentuadas na distribuição de probabilidade predita. Abstract: This study aimed to evaluate the performance of binary classification models on datasets with different levels of imbalance using oversampling and undersampling techniques in a credit risk problem. Themodels were initially trained and validated using samples fromthe Stratified K-Fold method. They were then evaluated on a sample with the original distribution of the response variable, allowing for a comparison of the results obtained. It was observed that there were no significant gains from balancing the response variable, only decreases in the values of F1-Score and LogLoss for the 50% balancing. Furthermore, for experiments with higher imbalance, higher levels of variability were identified among the training samples and more pronounced asymmetries in the predicted probability distribution.
Collections
- Data Science & Big Data [107]