Detecção de evasão escolar no ensino superior : um pipeline otimizado com stacking xgboost-lightgbm, kmeanssmote e otimização bayesiana

Silva, Michael da

dc.contributor.advisor	Wojciechowski, Jaime, 1965-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Curso de Especialização em Inteligência Artificial Aplicada	pt_BR
dc.creator	Silva, Michael da	pt_BR
dc.date.accessioned	2025-07-31T13:49:54Z
dc.date.available	2025-07-31T13:49:54Z
dc.date.issued	2025	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/97667
dc.description	Orientador: Prof. Dr. Jaime Wojciechowski	pt_BR
dc.description	Monografia (especialização) - Universidade Federal do Paraná, Setor de Setor de Educação Profissional e Tecnológica, Curso de Especialização em Inteligência Artificial Aplicada	pt_BR
dc.description	Inclui referências	pt_BR
dc.description.abstract	Resumo: Este trabalho apresenta uma abordagem preditiva para identificar estudantes com risco de evasão em cursos superiores, utilizando técnicas de ciência de dados e aprendizado de máquina. A base de dados analisada contém 4.424 registros acadêmicos, submetidos a processos de limpeza, engenharia de atributos e pré-processamento. Para lidar com o desbalanceamento entre as classes "Evasão", "Matriculado" e "Graduado", foi empregada a técnica KMeansSMOTE, que combina agrupamento via K-Means com a geração de amostras sintéticas seguras . A modelagem foi realizada por meio de um ensemble de stacking, utilizando XGBoost e LightGBM como modelos base e regressão logística como metamodelo. A otimização de hiperparâmetros foi conduzida com OptunaSearchCV, utilizando validação cruzada estratiflcada e AUC como métrica de avaliação . O modelo final alcançou uma AUC de 0,8750 no conjunto de teste, demonstrando eficácia na identificação de estudantes em risco de evasão	pt_BR
dc.description.abstract	Abstract: This work presents a predictive approach to identify students at risk of dropping out of higher education courses, using data science and machine learning techniques. The database found contains 4,424 academic records, submitted to cleaning, feature engineering and preprocessing processes. To deal with the imbalance between the classes "Dropping", "Enrolled" and "Graduated", the KMeansSMOTE technique was used, which combines clustering via K-Means with the generation of safe synthetic samples. The modeling was performed through a stacking ensemble, using XGBoost and LightGBM as base models and logistic regression as metamodel. Hyperparameter optimization was conducted with OptunaSearchCV, using stratified cross-validation and AUC as evaluation metric. The final model achieved an AUC of 0.8750 in the test set, demonstrating effectiveness in identifying students at risk of dropping out	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Levantamentos educacionais	pt_BR
dc.subject	Evasão universitária	pt_BR
dc.subject	Universidades e faculdades - Ex-alunos	pt_BR
dc.title	Detecção de evasão escolar no ensino superior : um pipeline otimizado com stacking xgboost-lightgbm, kmeanssmote e otimização bayesiana	pt_BR
dc.type	TCC Especialização Digital	pt_BR

Arquivos deste item

Nome:: R - E - MICHAEL DA SILVA.pdf
Tamanho:: 3.779Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Inteligência Artificial Aplicada [134]

Mostrar registro simples