Métodos de aprendizado de máquina aplicados a evasão escolar
Resumo
Resumo: A evasão escolar pode ser definida como a descontinuação de um estudante no seu ensino, podendo ocorrer de diferentes formas e, esse fenômeno, está cada vez mais presente no cenário do ensino superior, inclusive na UFPR (Universidade Federal do Paraná). Torna-se importante então buscar maneiras de reduzir a taxa de evasão e a mineração de dados e as técnicas de aprendizagem de máquina permitem identificar padrões e gerar modelos computacionais que podem predizer se um aluno será um evasor. Na UFPR existe o SIGA (Sistema de Gestão Acadêmica), um sistema integrado que contempla informações sobre matrícula, cursos, professores, disciplinas, frequências, notas, entre outras. Este trabalho, utilizando dados do SIGA, tem como objetivo usar modelos de classificação para predizer quais alunos estão em risco de evasão, assim como identificar os atributos mais determinantes. Para isso, foram aplicadas os algoritmos de regressão logística, árvore de decisão, k-Nearest Neighbours, Support Vector Machine e random forest.A regressão logística, a árvore de decisão e o random forest permitiram identificar que as variáveis mais significativas foram categoria de cota, forma de ingresso, setor de estudo, e considerando o primeiro semestre: índice de rendimento , carga curricular, número de reprovações por frequência e notas. Os melhores resultados de predição foram obtidos pelos algoritmos random forest com AUC de 0,863 e acurácia de 0,734 e o SVM com AUC de 0,847 e acurácia de 0,741. Abstract: School dropout can be defined as the discontinuation of a student in his or her education, and it can occur in different ways, and this phenomenon is increasingly present in the higher education scenario, including at UFPR (Federal University of Paraná). It becomes important then to look for ways to reduce the dropout rate and data mining and machine learning techniques allow to identify patterns and generate computational models that can predict if a student will be a dropout. At UFPR there is SIGA (Academic Management System), an integrated system that includes information about enrollment, courses, professors, subjects, frequencies, grades, among others. This work, using data from SIGA, aims to use classification models to predict which students are at risk of dropping out, as well as to identify the most determinant attributes. To do this, the algorithms logistic regression, decision tree, k-Nearest Neighbours, Support Vector Machine and random forest were applied.The logistic regression, decision tree and random forest allowed us to identify that the most significant variables were quota category, entrance form, study sector, and considering the first semester: performance index , curricular load, number of failures by frequency and grades. The best prediction results were obtained by the algorithms random forest with AUC of 0.863 and accuracy of 0.734 and the SVM with AUC of 0.847 and accuracy of 0.741.
Collections
- Dissertações [350]