• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Comparação entre modelos clássicos de NLP e LLM para análise de sentimento

    Thumbnail
    Visualizar/Abrir
    R - E - FELIPE DE MORAES KOWALSKI.pdf (410.1Kb)
    Data
    2025
    Autor
    Kowalski, Felipe de Moraes
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Este trabalho comparou diferentes abordagens de análise de sentimento em avaliações de produtos alimentícios da Amazon McAuley and Leskovec [2013], usando um conjunto balanceado de 12.500 textos (2.500 por nota de 1 a 5). O pré-processamento, realizado com NLTK [Bird et al., 2009], incluiu tokenização, análise gramatical e extração de entidades nomeadas. Foram testados três métodos: VADER Hutto and Gilbert [2014], baseado em léxico; RoBERTa Liu et al. [2019], um transformer contextual pré-treinado Devlin et al. [2018] implementado em PyTorch Paszke et al. [2019]; e um LLM via Ollama Ollama Team [2024], utilizando o Llama3-8B AI@Meta [2024] para classificação direta em positivo, negativo ou neutro. O VADER destacou-se pela velocidade, o RoBERTa pela compreensão contextual, e o LLM pelo equilíbrio entre precisão e flexibilidade. Avaliados por precisão, recall, F1-score, acurácia e matrizes de confusão, os resultados mostraram acurácia de 79% para o LLM, 70% para RoBERTa e 20% para VADER. Observou-se que VADER tende a superestimar a neutralidade, enquanto transformers capturam melhor nuances emocionais. O estudo ressalta a importância de escolher o método conforme as necessidades da aplicação
     
    Abstract: This study compared different sentiment analysis approaches on Amazon food product reviews McAuley and Leskovec [2013], using a balanced dataset of 12,500 texts (2,500 for each rating from 1 to 5). Preprocessing with NLTK [Bird et al., 2009] included tokenization, grammatical analysis, and named entity recognition. Three methods were tested: VADER Hutto and Gilbert [2014], a lexicon-based model; RoBERTa Liu et al. [2019], a contextual transformer pretrained on BERT Devlin et al. [2018] and implemented in PyTorch Paszke et al. [2019]; and an LLM via Ollama Ollama Team [2024], using Llama3-8B AI@Meta [2024] for direct classification into positive, negative, or neutral. VADER stood out for its speed, RoBERTa for contextual understanding, and the LLM for balancing accuracy and flexibility. Evaluated using precision, recall, F1-score, accuracy, and confusion matrices, results showed 79% accuracy for the LLM, 70% for RoBERTa, and 20% for VADER. VADER tended to overestimate neutrality, while transformer-based models better captured emotional nuances. The study highlights the importance of selecting the method according to the application’s specific requirements
     
    URI
    https://hdl.handle.net/1884/99269
    Collections
    • Data Science & Big Data [168]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV