Ciência de dados aplicada à redução de turnover e identificação de fatores de risco em recursos humanos

Santiago, Desireé Barbosa

Visualizar/Abrir

R - E - DESIREE BARBOSA SANTIAGO.pdf (345.8Kb)

Data

2025

Autor

Santiago, Desireé Barbosa

Metadata

Mostrar registro completo

Resumo

Resumo: Este estudo apresenta o desenvolvimento e a avaliação de modelos preditivos para estimar a probabilidade de desligamento de funcionários, utilizando dados históricos e variáveis relacionadas ao comportamento do colaborador. Foram testados três algoritmos: XGBoost, LightGBM e LightGBM no modo Random Forest, cada um apresentando pontos fortes distintos — desde maior acurácia geral até melhor equilíbrio entre precisão e recall. Os resultados mostram que a escolha do modelo mais adequado depende do objetivo de negócio: priorizar acurácia, maximizar a capacidade de discriminação ou equilibrar a detecção de desligamentos e a redução de falsos positivos. No contexto analisado, em que a prioridade foi identificar o maior número possível de colaboradores em risco para permitir ações preventivas, mesmo com a ocorrência de falsos positivos, o LightGBM no modo Random Forest demonstrou-se a opção mais adequada

Abstract: This study presents the development and evaluation of predictive models to estimate the likelihood of employee turnover, using historical data and variables related to the employee’s behavior. Three algorithms were tested: XGBoost, LightGBM, and LightGBM in Random Forest mode, each showing distinct strengths — from higher overall accuracy to a better balance between precision and recall. The results indicate that the choice of the most suitable model depends on the business objective: prioritizing accuracy, maximizing discrimination capability, or balancing turnover detection with the reduction of false positives. In the analyzed context, where the priority was to identify the largest possible number of at-risk employees to enable preventive actions, even at the cost of some false positives, LightGBM in Random Forest mode proved to be the most appropriate option

URI

https://hdl.handle.net/1884/98923

Collections

Data Science & Big Data [191]