Detecção de anomalias em fraudes transacionais : modelagem, avaliação e comparação de abordagens não supervisionadas e supervisionadas
Resumo
Resumo: As fraudes transacionais impõem perdas significativas às instituições financeiras e exigem modelos capazes de equilibrar elevada taxa de detecção e controle de falsos positivos. Este trabalho compara modelos supervisionados (Random Forest) e modelos de detecção de anomalias não supervisionados (Isolation Forest e One-Class SVM) em um cenário de fraude com desbalanceamento extremo de classes. Utilizou-se o conjunto de dados IEEE-CIS Fraud Detection, com divisão temporal rigorosa, engenharia extensiva de atributos e avaliação baseada em métricas orientadas ao negócio, como Recall@k, Lift@k e Precision@k. Os resultados indicam que o modelo supervisionado apresenta desempenho preditivo estatisticamente superior, levando à rejeição da hipótese de desempenho semelhante (H1). Em contrapartida, os modelos de detecção de anomalias demonstraram maior robustez frente à degradação temporal dos dados, corroborando a hipótese de melhor generalização (H3). Conclui-se que modelos supervisionados são mais eficazes na detecção de fraudes conhecidas, enquanto abordagens não supervisionadas desempenham papel complementar relevante na identificação de novos padrões de fraude, sugerindo uma estratégia híbrida para mitigação de risco Abstract: Transactional fraud causes substantial financial losses and requires models capable of balancing high detection rates with controlled false positives. This study compares supervised models (Random Forest) and unsupervised anomaly detection methods (Isolation Forest and One-Class SVM) in an extremely imbalanced fraud setting. The IEEE-CIS Fraud Detection dataset was employed, using a strict temporal split, extensive feature engineering, and business-oriented evaluation metrics such as Recall@k, Lift@k, and Precision@k. The results show that the supervised model achieves statistically superior predictive performance, leading to the rejection of the similar-performance hypothesis (H1). However, anomaly detection models exhibit greater robustness to temporal degradation, supporting the hypothesis of better generalization (H3). The findings indicate that supervised models are more effective against known fraud patterns, while unsupervised approaches are essential as complementary mechanisms for detecting emerging fraud behaviors, supporting a hybrid risk mitigation strategy
Collections
- Data Science & Big Data [190]