• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Avaliação do impacto de conjuntos de dados desbalanceadas em modelos de classificação para risco de crédito

    Thumbnail
    Visualizar/Abrir
    R - E - WESLEY OLIVEIRA FURRIEL.pdf (821.0Kb)
    Data
    2023
    Autor
    Furriel, Wesley Oliveira
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Este trabalho teve como objetivo avaliar o desempenho de modelos de regressão e classificação binária em conjuntos de dados com diferentes níveis de desbalanceamento via oversampling e undersampling aleatório em um problema de risco de crédito. Os modelos de regressão logística, random forest, catboost e lgbm foram treinados e validados inicialmente pelas amostras obtidas pelo método Stratified K-Fold. Emseguida, foram avaliados em uma amostra com a distribuição original da variável resposta, permitindo uma comparação entre os resultados obtidos. Desse modo, observou-se, que não ocorreram ganhos relevantes ao alancear os conjuntos de dados, ainda assim, foram constatadas quedas nos valores de F1-Score e LogLoss para os balanceamentos de 50%. Além disso, para os experimentos com maior desbalanceamento, foram identificados maiores níveis de variabilidade entre as amostras de treinamento e assimetrias mais acentuadas na distribuição de probabilidade predita.
     
    Abstract: This study aimed to evaluate the performance of binary classification models on datasets with different levels of imbalance using oversampling and undersampling techniques in a credit risk problem. Themodels were initially trained and validated using samples fromthe Stratified K-Fold method. They were then evaluated on a sample with the original distribution of the response variable, allowing for a comparison of the results obtained. It was observed that there were no significant gains from balancing the response variable, only decreases in the values of F1-Score and LogLoss for the 50% balancing. Furthermore, for experiments with higher imbalance, higher levels of variability were identified among the training samples and more pronounced asymmetries in the predicted probability distribution.
     
    URI
    https://hdl.handle.net/1884/85723
    Collections
    • Data Science & Big Data [138]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV