Modelo preditivo de churn em plataforma logística com dados de requisições de motoristas e veículos
Resumo
Resumo: A retenção de clientes é um dos principais desafios enfrentados por empresas de tecnologia e logística, especialmente em modelos de negócios baseados em recorrência. Nesse contexto, o churn — caracterizado pela perda ou redução significativa do uso dos serviços por parte dos clientes — representa impacto direto na previsibilidade de receita, margens operacionais e sustentabilidade financeira, sendo amplamente discutido na literatura de ciência de dados aplicada a negócios [1, 2]. Este trabalho tem como objetivo desenvolver um modelo preditivo capaz de identificar clientes com alto risco de churn em uma empresa de logística digital, utilizando técnicas de aprendizado de máquina. Para isso, foram empregados dois algoritmos amplamente utilizados em problemas de classificação: Regressão Logística e XGBoost. A base de dados foi construída a partir da consolida- ção de informações transacionais, cadastrais e comportamentais dos clientes, passando por etapas de limpeza, preparação e engenharia de atributos. Os modelos foram avaliados por meio de métricas adequadas a cenários de classes desbalanceadas, como ROC-AUC, PR-AUC, recall e matriz de confusão. Os resultados indicam que o modelo XGBoost apresentou desempenho superior, especialmente na capacidade de capturar interações não lineares entre variáveis e identificar corretamente clientes churn, mantendo elevado recall. A Regressão Logística, por sua vez, demonstrou maior interpretabilidade, servindo como modelo de comparação e validação conceitual. Os achados reforçam o potencial do uso de modelos preditivos como ferramenta de apoio à tomada de decisão estratégica, permitindo ações proativas de retenção, aumento da previsibilidade financeira e redução de perdas de receita Abstract: Customer retention is one of the main challenges faced by technology and logistics companies, especially in recurring revenue business models. In this context, churn — characterized by the loss or significant reduction in customer service usage — directly impacts revenue predictability, operational margins, and financial sustainability [1, 2]. This study aims to develop a predictive model capable of identifying customers at high risk of churn in a digital logistics company using machine learning techniques. Two widely used classification algorithms were applied: Logistic Regression and XGBoost. The dataset was built by consolidating transactional, customer profile, and behavioral data, followed by data cleaning, preprocessing, and feature engineering steps. The models were evaluated using metrics suitable for imbalanced classification problems, such as ROC-AUC, PR-AUC, recall, and confusion matrix. Results show that the XGBoost model outperformed Logistic Regression, particularly in capturing complex nonlinear relationships and correctly identifying churn customers while maintaining high recall. Logistic Regression demonstrated higher interpretability and served as a baseline model for comparison
Collections
- Data Science & Big Data [190]