Rogue one : rebelling against machine learning (in) security

Ceschin, Fabrício José de Oliveira

Visualizar/Abrir

R - T - FABRICIO JOSE DE OLIVEIRA CESCHIN.pdf (149.9Mb)

Data

2023

Autor

Ceschin, Fabrício José de Oliveira

Metadata

Mostrar registro completo

Resumo

Resumo: Aprendizado de Máquina é amplamente utilizado em várias tarefas de segurança computacional hoje em dia e é considerado estado da arte pois ajuda a melhorar a detecção de novos ataques, podendo acompanhar suas evoluções. Entretanto, soluções baseadas em aprendizado de máquina podem ser muito difíceis de se avaliarem em alguns cenários, os tornando propensos a problemas que podem invalidar seus usos na prática. Uma das razões para isso é que dados de segurança seguem uma distribuição não-estacionária devido a sua natureza de sempre estar mudando para evadir a detecção, requerendo uma atenção especial. Por isso, é essencial saber como utilizar corretamente aprendizado de máquina em segurança, considerando todos os desafios que são encontrados durante a proposta ou implantação de mecanismos de defesa. Nesta tese, eu proponho investigar os principais problemas da aplicação de aprendizado de máquina em segurança, mostrando como soluções existentes falham e, em alguns casos, propondo possíveis mitigações. Baseado nisso, eu apresento uma análise crítica do estado da arte e aponto direções para os trabalhos futuros. Os principais objetivos desse trabalho são (i) entender os principais problemas de aplicar aprendizado de máquina em segurança; (ii) detectar o que pode ser melhorado; (iii) qual é o futuro de aprendizado de máquina para segurança; e (iv) reduzir a distância da indústria e academia. Finalmente, as principais contribuições dessa tese são (i) uma análise extensiva da literatura recente a respeito do uso de aprendizado de máquina em segurança de forma comparativa; (ii) direções para pesquisas de segurança considerando suas particularidades e como aplicar corretamente o aprendizado de máquina para melhorar a qualidade das soluções e permitir o uso efetivos em aplicações do mundo real; e (iii) um conjunto de módulos e frameworks para apoiar e melhorar futuras soluções de aprendizado de máquina para segurança que podem ser utilizados tanto pela indústria como pela academia.

Abstract: Machine Learning (ML) is widely used in many cybersecurity tasks nowadays and it is considered state-of-the-art because it helps to improve the detection of new attacks, keeping pace with their evolution. However, ML-based solutions may be too difficult to evaluate in some scenarios, making them prone to gaps and pitfalls that could invalidate their use in practice. One of the reasons for that is that cybersecurity data follows a non-stationary distribution due to its constantly changing nature to evade detection, requiring special attention. Thus, it is essential to know how to correctly use Machine Learning (ML) in cybersecurity, considering all the challenges that are faced during the proposal or deployment of defense solutions. In this thesis, I propose to investigate the main challenges of applying Machine Learning to cybersecurity, showing how existing solutions fail and, in some cases, proposing possible mitigations to them. Based on that, I present a critical analysis of the state-of-the-art literature and point directions toward adequate ways for future research. The main objectives of this work are to (i) understand the main problems of applying Machine Learning in cybersecurity; (ii) detect what can be improved; (iii) what is the future of Machine Learning for security; and (iv) reduce the gap between industry and academy. Finally, the main contributions of this thesis are (i) an extensive analysis of the recent literature regarding ML applied to cybersecurity in a comparative way; (ii) directions for cybersecurity research considering its particularities and how to correctly apply ML to improve quality and allow their effective use in real-world applications; and (iii) a set of modules or frameworks to support and improve further ML solutions for cybersecurity that can be used by both industry and academy.

URI

https://hdl.handle.net/1884/81618

Collections

Dissertações [275]