Mostrar registro simples

dc.contributor.advisorBonat, Wagner Hugo, 1985-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Datapt_BR
dc.creatorFurriel, Wesley Oliveirapt_BR
dc.date.accessioned2023-12-20T17:36:44Z
dc.date.available2023-12-20T17:36:44Z
dc.date.issued2023pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/85723
dc.descriptionOrientador: Prof. Wagner Hugo Bonatpt_BR
dc.descriptionArtigo apresentado como Trabalho de Conclusão de Cursopt_BR
dc.descriptionMonografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science e Big Datapt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo: Este trabalho teve como objetivo avaliar o desempenho de modelos de regressão e classificação binária em conjuntos de dados com diferentes níveis de desbalanceamento via oversampling e undersampling aleatório em um problema de risco de crédito. Os modelos de regressão logística, random forest, catboost e lgbm foram treinados e validados inicialmente pelas amostras obtidas pelo método Stratified K-Fold. Emseguida, foram avaliados em uma amostra com a distribuição original da variável resposta, permitindo uma comparação entre os resultados obtidos. Desse modo, observou-se, que não ocorreram ganhos relevantes ao alancear os conjuntos de dados, ainda assim, foram constatadas quedas nos valores de F1-Score e LogLoss para os balanceamentos de 50%. Além disso, para os experimentos com maior desbalanceamento, foram identificados maiores níveis de variabilidade entre as amostras de treinamento e assimetrias mais acentuadas na distribuição de probabilidade predita.pt_BR
dc.description.abstractAbstract: This study aimed to evaluate the performance of binary classification models on datasets with different levels of imbalance using oversampling and undersampling techniques in a credit risk problem. Themodels were initially trained and validated using samples fromthe Stratified K-Fold method. They were then evaluated on a sample with the original distribution of the response variable, allowing for a comparison of the results obtained. It was observed that there were no significant gains from balancing the response variable, only decreases in the values of F1-Score and LogLoss for the 50% balancing. Furthermore, for experiments with higher imbalance, higher levels of variability were identified among the training samples and more pronounced asymmetries in the predicted probability distribution.pt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectAnalise de regressãopt_BR
dc.subjectAvaliação de riscospt_BR
dc.titleAvaliação do impacto de conjuntos de dados desbalanceadas em modelos de classificação para risco de créditopt_BR
dc.typeTCC Especialização Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples