Classificação de URLs maliciosas com base em atributos lexicais usando Random Forest e XGBoost
Resumo
Resumo: Com o avanço das ameaças cibernéticas, a automação do processo de takedown de URLs maliciosas tornou-se uma estratégia essencial na segurança digital. Este trabalho realiza uma análise comparativa dos algoritmos Random Forest e XGBoost na classificação de URLs como benignas ou maliciosas, utilizando exclusivamente atributos lexicais. A base de dados empregada foi a ISCX-URL2016, composta por 36.708 URLs distribuídas em cinco categorias (benignas, phishing, spam, malware e defacement) e descritas por 79 atributos estruturais. A metodologia adotou divisão estratificada dos dados (80/20), validação cruzada k fold (k=10) e otimização de hiperparâmetros via grid search. Os resultados indicam que ambos os modelos apresentaram alto desempenho, sendo que o Random Forest obteve acurácia de 98,12% e F1-score macro de 0,98, enquanto o XGBoost superou ligeiramente com acurácia de 98,62% e F1-score macro de 0,99. Já a análise das matrizes de confusão revelou que o XGBoost apresentou menor taxa de erros, especialmente nas classes "phishing" e "spam". A importância dos atributos evidenciou que características como comprimento da URL, número de tokens e entropia dos caracteres foram as mais relevantes para a classificação, com os resultados comprovando que é possível atingir alto desempenho utilizando apenas atributos lexicais e deste modo contribuindo para processos de takedown mais rápidos, eficientes e com menor custo computacional Abstract: With the advancement of cyber threats, automating the takedown process of malicious URLs has become an essential strategy in digital security. This study presents a comparative analysis of the Random Forest and XGBoost algorithms for classifying URLs as benign or malicious, using exclusively lexical features. The ISCX-URL2016 dataset, with 36,708 URLs across f ive categories and 79 structural attributes, was used. The methodology included stratified data splitting (80/20), 10-fold cross-validation, and hyperparameter optimization via grid search. Both models performed well: Random Forest achieved 98.12% accuracy and a macro F1-score of 0.98, while XGBoost reached 98.62% accuracy and a macro F1-score of 0.99. XGBoost showed lower error rates, notably in "phishing" and "spam" classes. Feature importance analysis highlighted URL length, token count, and character entropy as most relevant. The findings confirm high performance using only lexical features, aiding faster, more efficient, and less resource-intensive takedown efforts