Modelagem preditiva para inadimplência de crédito

Martins, Andrei Ferreira

Visualizar/Abrir

R - E - ANDREI FERREIRA MARTINS.pdf (986.7Kb)

Data

2026

Autor

Martins, Andrei Ferreira

Metadata

Mostrar registro completo

Resumo

Resumo: Embora a expressiva oferta de crédito por meio de cartões promova inclusão financeira, ela também está associada a um aumento do risco de inadimplência, especialmente em bases de dados com forte desbalanceamento entre clientes adimplentes e inadimplentes. Para mitigar esse problema, métodos de aprendizado de máquina supervisionado têm sido amplamente utilizados na análise de risco de crédito. Dentre essas abordagens, destacam-se modelos de classificação capazes de estimar a probabilidade de inadimplência a partir de informações financeiras e comportamentais. Nesse contexto, este trabalho tem como objetivo avaliar o desempenho dos modelos Regressão Logística, SVM (Support Vector Machine), Random Forest e XGBoost (Extreme Gradient Boosting) na identificação de clientes inadimplentes, considerando diferentes cenários de balanceamento da base de dados. Além disso, foi aplicada a técnica SMOTE (synthetic minority oversampling technique) para reduzir a assimetria entre classes, bem como a otimização do threshold por meio da distância euclidiana na curva ROC (Receiver Operating Characteristic). Os resultados obtidos demonstram que o balanceamento contribui significativamente para a melhoria das métricas de desempenho, com destaque para o modelo Random Forest, que apresentou maior robustez, capacidade discriminativa e generalização, configurando-se como uma alternativa eficiente para apoio à tomada de decisão na concessão de crédito

Abstract: Although the widespread availability of credit through credit cards promotes financial inclusion, it is also associated with an increased risk of default, especially in datasets with a strong imbalance between non-defaulting and defaulting customers. To mitigate this issue, supervised machine learning methods have been widely used in credit risk analysis. Among these approaches, classification models capable of estimating the probability of default based on financial and behavioral information stand out. In this context, this study aims to evaluate the performance of Logistic Regression, SVM, Random Forest, and XGBoost models in identifying defaulting customers, considering different data balancing scenarios. In addition, the SMOTE technique was applied to reduce class imbalance, as well as threshold optimization using the euclidean distance on the ROC Curve. The results demonstrate that data balancing significantly improves performance metrics, with the Random Forest model standing out for its greater robustness, discriminative power, and generalization capability, thus representing an efficient alternative to support decision-making in credit granting

URI

https://hdl.handle.net/1884/100395

Collections

Data Science & Big Data [191]