• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Detecção de Inconsistências em Avaliações do Glassdoor : uma análise comparativa de pequenos modelos de linguagem

    Thumbnail
    Visualizar/Abrir
    R - E - GABRIEL FIGUR BERGER.pdf (766.8Kb)
    Data
    2025
    Autor
    Berger, Gabriel Figur
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A crescente digitalização e a expansão de plataformas de avaliação online, como o Glassdoor, geraram um volume massivo de dados textuais cujo valor para a área de People Analytics é frequentemente comprometido por inconsistências entre a classificação numérica e o sentimento expresso no conteúdo escrito. Diante deste problema, o presente estudo teve como objetivo central avaliar comparativamente o desempenho de Pequenos Modelos de Linguagem (SLMs) de código aberto na tarefa de identificar inconsistências de classificação-sentimento em um corpus bilíngue (português e inglês) de 1.000 avaliações da plataforma Glassdoor. A metodologia envolveu a criação de um gabarito de referência por meio de anotação manual, a operacionalização do construto de inconsistência e a execução de 42 modelos individuais e 12 modelos de ensemble em um cenário de zero-shot learning. Os resultados indicaram que os SLMs não apenas se mostraram viáveis, mas superaram o desempenho de grandes modelos de linguagem (LLMs) proprietários. Para a maximização da detecção (recall), os modelos da família Qwen (qwen2.5:0.5b e qwen3:0.6b) foram os mais eficazes e eficientes. Para um desempenho equilibrado entre detecção e precisão (F1-Score), os modelos stablelm:12b (inglês) e gemma:7b (português), bem como a estratégia de ensemble, demonstraram maior robustez. Conclui-se que SLMs especializados representam uma solução eficiente e de alto desempenho para a detecção de inconsistências em avaliações, com a escolha do modelo ideal dependendo do critério de otimização (recall ou F1-Score) e do contexto linguístico da análise
     
    Abstract: The increasing digitization and expansion of online review platforms, such as Glassdoor, have generated a massive volume of textual data whose value for People Analytics is often compromised by inconsistencies between the numerical rating and the sentiment expressed in the written content. Given this problem, the present study's central objective was to comparatively evaluate the performance of open-source Small Language Models (SLMs) in the task of identifying rating-sentiment inconsistencies in a bilingual corpus (Portuguese and English) of 1,000 Glassdoor reviews. The methodology involved creating a reference key through manual annotation, operationalizing the inconsistency construct, and running 42 individual models and 12 ensemble models in a zero-shot learning scenario. The results indicated that SLMs not only proved to be viable but also surpassed the performance of proprietary Large Language Models (LLMs). For maximizing detection (recall), the Qwen family models (qwen2.5:0.5b and qwen3:0.6b) were the most effective and efficient. For a balanced performance between detection and precision (F1-Score), the stablelm:12b (English) and gemma:7b (Portuguese) models, as well as the ensemble strategy, demonstrated greater robustness. It is concluded that specialized SLMs represent an efficient and high-performing solution for detecting inconsistencies in reviews, with the choice of the ideal model depending on the optimization criterion (recall or F1-Score) and the linguistic context of the analysis
     
    URI
    https://hdl.handle.net/1884/99271
    Collections
    • Data Science & Big Data [168]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV