Evaluating Strategies to Predict the Evasion of Students in Higher Education
Resumo
Resumo: O Censo do Ensino Superior brasileiro mostrou que as taxas de evasão dos estudantes do ensino superior no Brasil ultrapassam 50% a partir do quinto ano. Essa alta taxa de evasão causa diversos problemas em termos de desperdício de recursos investidos pela sociedade e pelo aluno. Portanto, qualquer universidade deve desenvolver estratégias para evitar a evasão de alunos e minimizar esses problemas. No entanto, prever a evasão estudantil envolve detectar padrões e prevê-los em uma grande quantidade de dados coletados anualmente de milhares de alunos. Considerando a dimensão e a quantidade de dados envolvidos na previsão de evasão, pode-se sugerir o uso de técnicas de Machine Learning para automatizar a identificação desses alunos. Este trabalho tem como objetivo identificar alunos propensos à evasão com base no histórico do comportamento de alunos de uma universidade pública gratuita. Projetamos quatro conjuntos de dados de acordo com o semestre em que o aluno está no curso. Tais conjuntos de dados pretendem simular o cenário acadêmico e as características individuais dos alunos disponíveis até o momento da previsão. Testes estatísticos mostraram uma diferença significativa entre os três modelos de características propostos. Nosso método conseguiu identificar os alunos com maior probabilidade de evasão e suas principais características. Utilizar apenas as informações das disciplinas cursadas pelos alunos mostrou-se o melhor modelo de características. Ao usar esse modelo com o Gradient-Boosting, o desempenho do F1-Score variou entre 69% e 85%, dependendo do conjunto de dados. Abstract: The Brazilian Higher Education Census showed that the dropout rates of higher education students in Brazil exceed 50% from the fifth year onwards. This high tax of evasion causes several problems in terms of wasted resources invested by the society and the student. Therefore, any university must develop strategies to prevent student dropout and minimize those problems. Nevertheless, predicting student evasion involves detecting patterns and predicting them over a high amount of data collected yearly from thousands of students. Considering the dimension and the amount of data involved in dropout prediction, one can suggest using Machine Learning techniques to automate the identification of these students. This paper aims to identify dropoutprone students based on the behavior history of students at an unpaid public university. We engineered four datasets according to the semester in which the student is in the course. Such datasets intend to simulate the academic scenario and individual features of the students available until the moment of the prediction. Statistical tests showed a significant difference between the three feature models proposed. Our method could identify the students most likely to drop out and their main characteristics. Using only the information from the disciplines taken by the students proved to be the best feature model. When using these features with Gradient-Boosting, the F1-Score performance ranged between 69% and 85%, depending on the dataset.
Collections
- Data Science & Big Data [107]