Avaliação de Métodos de Machine Learning na detecção de fraude em dados transacionais de cartão de crédito
Resumo
Resumo : Apenas no Brasil, estima-se que os prejuízos causados por fraude em transações eletrônicas com cartão de crédito sejam da ordem de 7 bilhões de reais ao ano. Para evitar este tipo de fraude, são utilizados modelos estatísticos e de aprendizagem de máquina para detectar padrões e negar transações fraudulentas antes que sejam finalizadas, evitando assim os prejuízos decorrentes desta prática. Neste contexto, este trabalho apresenta a aplicação de técnicas para visualizar dados, detectar fraudes e avaliar modelos de aprendizado de máquina em uma base aberta e anonimizada de dados transacionais de cartão de crédito. Para visualização dos dados é utilizada a técnica t-SNE (t-Distributed Stochastic Neighbor Embedding), para detecção dos eventos de fraude são utilizados três métodos distintos: KNN (K-Nearest Neighbors), Random Forest e Gradient Boosting. Como métricas de avaliação destes modelos utilizou-se da precisão, revocação e F-score, além de uma breve análise de outros indicadores relevantes no mercado que também devem ser considerados para a escolha de um modelo de detecção de fraudes. Nossos resultados mostram o modelo de Random Forest com o melhor desempenho entre os métodos avaliados, classificando corretamente 99% das transações fraudulentas, incorrendo em falsos positivos em aproximadamente um terço das classificações de fraude. Abstract : In Brazil alone, it is estimated that the losses caused by fraud in electronic credit card transactions are in the order of 7 billion BRL per year. To prevent this type of fraud, statistical and machine learning models are used to detect patterns and deny fraudulent transactions before they are confirmed, avoiding the resulting losses from this practice. In this context, this work presents the application of techniques to visualize data, detect fraud and evaluate machine learning models on an open and anonymous database of transactional credit card data. For data visualization, the t-SNE (t-Distributed Stochastic Neighbor Embedding) technique is used; to detect fraud events, three different methods are used: KNN (K-Nearest Neighbors), Random Forest and Gradient Boosting. As for the metrics to evaluate these models, precision, recall and F-score were used, in addition to a brief analysis in terms of other relevant market indicators, which should also be considered when choosing an assertive fraud detection model. Our results show the Random Forest model with the best performance among the evaluated methods,correctly classifying 99% of fraudulent transactions, while incurring in false positives in approximately one third of the fraud classifications.
Collections
- Data Science & Big Data [107]