• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Inteligência Artificial Aplicada
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Inteligência Artificial Aplicada
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Classificação de URLs maliciosas com base em atributos lexicais usando Random Forest e XGBoost

    Thumbnail
    Visualizar/Abrir
    R - E - ALEIDA MOPI LAFUENTE.pdf (1.677Mb)
    Data
    2025
    Autor
    Lafuente, Aleida Mopi
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Com o avanço das ameaças cibernéticas, a automação do processo de takedown de URLs maliciosas tornou-se uma estratégia essencial na segurança digital. Este trabalho realiza uma análise comparativa dos algoritmos Random Forest e XGBoost na classificação de URLs como benignas ou maliciosas, utilizando exclusivamente atributos lexicais. A base de dados empregada foi a ISCX-URL2016, composta por 36.708 URLs distribuídas em cinco categorias (benignas, phishing, spam, malware e defacement) e descritas por 79 atributos estruturais. A metodologia adotou divisão estratificada dos dados (80/20), validação cruzada k fold (k=10) e otimização de hiperparâmetros via grid search. Os resultados indicam que ambos os modelos apresentaram alto desempenho, sendo que o Random Forest obteve acurácia de 98,12% e F1-score macro de 0,98, enquanto o XGBoost superou ligeiramente com acurácia de 98,62% e F1-score macro de 0,99. Já a análise das matrizes de confusão revelou que o XGBoost apresentou menor taxa de erros, especialmente nas classes "phishing" e "spam". A importância dos atributos evidenciou que características como comprimento da URL, número de tokens e entropia dos caracteres foram as mais relevantes para a classificação, com os resultados comprovando que é possível atingir alto desempenho utilizando apenas atributos lexicais e deste modo contribuindo para processos de takedown mais rápidos, eficientes e com menor custo computacional
     
    Abstract: With the advancement of cyber threats, automating the takedown process of malicious URLs has become an essential strategy in digital security. This study presents a comparative analysis of the Random Forest and XGBoost algorithms for classifying URLs as benign or malicious, using exclusively lexical features. The ISCX-URL2016 dataset, with 36,708 URLs across f ive categories and 79 structural attributes, was used. The methodology included stratified data splitting (80/20), 10-fold cross-validation, and hyperparameter optimization via grid search. Both models performed well: Random Forest achieved 98.12% accuracy and a macro F1-score of 0.98, while XGBoost reached 98.62% accuracy and a macro F1-score of 0.99. XGBoost showed lower error rates, notably in "phishing" and "spam" classes. Feature importance analysis highlighted URL length, token count, and character entropy as most relevant. The findings confirm high performance using only lexical features, aiding faster, more efficient, and less resource-intensive takedown efforts
     
    URI
    https://hdl.handle.net/1884/97540
    Collections
    • Inteligência Artificial Aplicada [57]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV