Comparação de estratégias de Machine Learning : um exemplo em análise de churn
Resumo
Resumo: O presente trabalho tem como objetivo analisar a efetividade de diferentes arquiteturas de aprendizado de máquina na previsão do churn em uma base de dados fictícios provinda do Kaggle. O churn, ou cancelamento de serviços e/ou produto por parte dos clientes é um desafio comum em diversos setores e sua prevenção é crucial para a manutenção da competitividade das empresas. A partir dos dados disponíveis, é realizado a limpeza deles, a análise descritiva das variáveis e outras análises cabíveis, com os dados processados, é aplicado três modelagens diferentes, sendo a regressão logística como base, e dois modelos mais robustos, o Random Forest e redes neurais. As redes neurais são modelos sofisticados e populares atualmente, e apesar do grande potencial delas, para o contexto e a base de dados utilizadas, elas não possuem a melhor performance. O estudo destaca a importância de selecionar o algoritmo adequado para o contexto específico da análise, reforçando que a sofisticação do algoritmo não garante, necessariamente, a melhor performance Abstract: This study aims to analyze the effectiveness of different machine learning architectures in predicting churn in a fictitious data set from Kaggle. Churn, or cancellation of services and/or products by customers, is a common challenge in several sectors and its prevention is crucial to maintaining the competitiveness of companies. Based on the available data, data are cleaned, descriptively analyzed, and other appropriate analyses are performed. With the processed data, three different models are applied, the basis being logistic regression, and two more robust models, Random Forest and neural networks. Neural networks are sophisticated and popular models today, and despite their great potential, for the context and database used, they do not have the best performance. The study highlights the importance of selecting the appropriate algorithm for the specific context of the analysis, reinforcing that the sophistication of the algorithm does not necessarily guarantee the best performance
Collections
- Data Science & Big Data [163]