• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Avaliação de Métodos de Machine Learning na detecção de fraude em dados transacionais de cartão de crédito

    Thumbnail
    Visualizar/Abrir
    R - E - Adriano de Castro Benatto Paul.pdf (1.588Mb)
    Data
    2020
    Autor
    Paul, Adriano de Castro Benatto
    Metadata
    Mostrar registro completo
    Resumo
    Resumo : Apenas no Brasil, estima-se que os prejuízos causados por fraude em transações eletrônicas com cartão de crédito sejam da ordem de 7 bilhões de reais ao ano. Para evitar este tipo de fraude, são utilizados modelos estatísticos e de aprendizagem de máquina para detectar padrões e negar transações fraudulentas antes que sejam finalizadas, evitando assim os prejuízos decorrentes desta prática. Neste contexto, este trabalho apresenta a aplicação de técnicas para visualizar dados, detectar fraudes e avaliar modelos de aprendizado de máquina em uma base aberta e anonimizada de dados transacionais de cartão de crédito. Para visualização dos dados é utilizada a técnica t-SNE (t-Distributed Stochastic Neighbor Embedding), para detecção dos eventos de fraude são utilizados três métodos distintos: KNN (K-Nearest Neighbors), Random Forest e Gradient Boosting. Como métricas de avaliação destes modelos utilizou-se da precisão, revocação e F-score, além de uma breve análise de outros indicadores relevantes no mercado que também devem ser considerados para a escolha de um modelo de detecção de fraudes. Nossos resultados mostram o modelo de Random Forest com o melhor desempenho entre os métodos avaliados, classificando corretamente 99% das transações fraudulentas, incorrendo em falsos positivos em aproximadamente um terço das classificações de fraude.
     
    Abstract : In Brazil alone, it is estimated that the losses caused by fraud in electronic credit card transactions are in the order of 7 billion BRL per year. To prevent this type of fraud, statistical and machine learning models are used to detect patterns and deny fraudulent transactions before they are confirmed, avoiding the resulting losses from this practice. In this context, this work presents the application of techniques to visualize data, detect fraud and evaluate machine learning models on an open and anonymous database of transactional credit card data. For data visualization, the t-SNE (t-Distributed Stochastic Neighbor Embedding) technique is used; to detect fraud events, three different methods are used: KNN (K-Nearest Neighbors), Random Forest and Gradient Boosting. As for the metrics to evaluate these models, precision, recall and F-score were used, in addition to a brief analysis in terms of other relevant market indicators, which should also be considered when choosing an assertive fraud detection model. Our results show the Random Forest model with the best performance among the evaluated methods,correctly classifying 99% of fraudulent transactions, while incurring in false positives in approximately one third of the fraud classifications.
     
    URI
    https://hdl.handle.net/1884/71002
    Collections
    • Data Science & Big Data [138]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV