Detecção de evasão escolar no ensino superior : um pipeline otimizado com stacking xgboost-lightgbm, kmeanssmote e otimização bayesiana
Resumo
Resumo: Este trabalho apresenta uma abordagem preditiva para identificar estudantes com risco de evasão em cursos superiores, utilizando técnicas de ciência de dados e aprendizado de máquina. A base de dados analisada contém 4.424 registros acadêmicos, submetidos a processos de limpeza, engenharia de atributos e pré-processamento. Para lidar com o desbalanceamento entre as classes "Evasão", "Matriculado" e "Graduado", foi empregada a técnica KMeansSMOTE, que combina agrupamento via K-Means com a geração de amostras sintéticas seguras . A modelagem foi realizada por meio de um ensemble de stacking, utilizando XGBoost e LightGBM como modelos base e regressão logística como metamodelo. A otimização de hiperparâmetros foi conduzida com OptunaSearchCV, utilizando validação cruzada estratiflcada e AUC como métrica de avaliação . O modelo final alcançou uma AUC de 0,8750 no conjunto de teste, demonstrando eficácia na identificação de estudantes em risco de evasão Abstract: This work presents a predictive approach to identify students at risk of dropping out of higher education courses, using data science and machine learning techniques. The database found contains 4,424 academic records, submitted to cleaning, feature engineering and preprocessing processes. To deal with the imbalance between the classes "Dropping", "Enrolled" and "Graduated", the KMeansSMOTE technique was used, which combines clustering via K-Means with the generation of safe synthetic samples. The modeling was performed through a stacking ensemble, using XGBoost and LightGBM as base models and logistic regression as metamodel. Hyperparameter optimization was conducted with OptunaSearchCV, using stratified cross-validation and AUC as evaluation metric. The final model achieved an AUC of 0.8750 in the test set, demonstrating effectiveness in identifying students at risk of dropping out