Algoritmo de predição de desempenho de alunos do curso de Análise e Desenvolvimento de Sistemas baseado no histórico acadêmico e dados sociodemográficos
Resumo
Resumo: Recentemente, tem havido um aumento no uso de ferramentas de data mining na extração de informaçãoes relevantes de bases de dado educacionais, sendo que tal processo recebe o nome de Educational DataMining. Considerando a grande incidência de evasão nas universidades públicas brasileiras, existe uma grande importância na identificação precoce de alunos que possuíssem um risco de evasão. Tendo em vista o grande efeito de reprovações no aumento da probabilidade de evasão, este artigo traz a comparação de diferentes abordagens na identificação de alunos que possuem o maior risco de reprovarem determinada disciplina. Os seguintes métodos foram implementados em uma base real de alunos da UFPR : Support Vector Machines, Redes Neurais Profundas e Random Forests. Todos os algoritmos foram testados em uma base contendo unicamente os dados de histórico acadêmico e outra contendo os dados de histórico e dados socioeconômicos a fim de identificar as variáveis de maior relevância para o aumento no risco de reprovação. De todos os métodos mostrados, o RandomForest utilizando dados de histórico escolar e dados socioeconômicos mostrou a melhor performance para o problema apresentado Abstract : Recently, there has been a rise on the use of datamining to extract relevant information fromeducational data, such a process being calledEducational DataMining. Considering the current pace of college dropout in Brazilian public universities, there is agreat importance on early identification of students with a risk of dropping out. Considering the great effect of class failure on increasing the probability of dropout, this paper compares different approaches in order to identify the students with a greater risk of failing a class. The proposed method shave been tested on a real world data set of UFPR students: Support Vector Machines, Deep Learning Neural Networks and Random Forests. All the algorithms have been tested with the grade history data and the socioeconomic data for a student in order to identify the most important variables for increasing the risk of class failure. Of all methods shown, the random forest using historical and socioeconomic data had the best performance for the task proposed.