Mostrar registro simples

dc.contributor.advisorMontaño, Razer Anthom Nizer Rojas, 1975-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Curso de Especialização em Inteligência Artificial Aplicadapt_BR
dc.creatorLafuente, Aleida Mopipt_BR
dc.date.accessioned2025-07-25T14:27:13Z
dc.date.available2025-07-25T14:27:13Z
dc.date.issued2025pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/97540
dc.descriptionOrientador: Prof. Dr. Razer Anthom Nizer Rojas Montañopt_BR
dc.descriptionMonografia (especialização) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Inteligência Artificial Aplicada, Curso de Especialização em Inteligência Artificial Aplicadapt_BR
dc.descriptionInclui referênciaspt_BR
dc.description.abstractResumo: Com o avanço das ameaças cibernéticas, a automação do processo de takedown de URLs maliciosas tornou-se uma estratégia essencial na segurança digital. Este trabalho realiza uma análise comparativa dos algoritmos Random Forest e XGBoost na classificação de URLs como benignas ou maliciosas, utilizando exclusivamente atributos lexicais. A base de dados empregada foi a ISCX-URL2016, composta por 36.708 URLs distribuídas em cinco categorias (benignas, phishing, spam, malware e defacement) e descritas por 79 atributos estruturais. A metodologia adotou divisão estratificada dos dados (80/20), validação cruzada k fold (k=10) e otimização de hiperparâmetros via grid search. Os resultados indicam que ambos os modelos apresentaram alto desempenho, sendo que o Random Forest obteve acurácia de 98,12% e F1-score macro de 0,98, enquanto o XGBoost superou ligeiramente com acurácia de 98,62% e F1-score macro de 0,99. Já a análise das matrizes de confusão revelou que o XGBoost apresentou menor taxa de erros, especialmente nas classes "phishing" e "spam". A importância dos atributos evidenciou que características como comprimento da URL, número de tokens e entropia dos caracteres foram as mais relevantes para a classificação, com os resultados comprovando que é possível atingir alto desempenho utilizando apenas atributos lexicais e deste modo contribuindo para processos de takedown mais rápidos, eficientes e com menor custo computacionalpt_BR
dc.description.abstractAbstract: With the advancement of cyber threats, automating the takedown process of malicious URLs has become an essential strategy in digital security. This study presents a comparative analysis of the Random Forest and XGBoost algorithms for classifying URLs as benign or malicious, using exclusively lexical features. The ISCX-URL2016 dataset, with 36,708 URLs across f ive categories and 79 structural attributes, was used. The methodology included stratified data splitting (80/20), 10-fold cross-validation, and hyperparameter optimization via grid search. Both models performed well: Random Forest achieved 98.12% accuracy and a macro F1-score of 0.98, while XGBoost reached 98.62% accuracy and a macro F1-score of 0.99. XGBoost showed lower error rates, notably in "phishing" and "spam" classes. Feature importance analysis highlighted URL length, token count, and character entropy as most relevant. The findings confirm high performance using only lexical features, aiding faster, more efficient, and less resource-intensive takedown effortspt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectCentros de Processamento de Dados - Medidas de segurançapt_BR
dc.subjectComputadores - Medidas de segurançapt_BR
dc.subjectVirus de computadorpt_BR
dc.subjectCrime por computadorpt_BR
dc.titleClassificação de URLs maliciosas com base em atributos lexicais usando Random Forest e XGBoostpt_BR
dc.typeTCC Especialização Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples