• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Trabalhos de Especialização
    • Ciências Exatas e da Terra
    • Data Science & Big Data
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Avaliação de classificadores de texto para verbatins de clientes do ramo de previdência utilizando aprendizado de máquina e LLMs

    Thumbnail
    Visualizar/Abrir
    R - E - GABRIEL PEREIRA.pdf (395.0Kb)
    Data
    2025
    Autor
    Pereira, Gabriel
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Este trabalho avalia o desempenho de modelos de aprendizado de máquina supervisionado e explora o potencial de Modelos de Linguagem Grandes (LLMs) para a classificação automática de verbatins de clientes do ramo de previdência. Foram comparados os seguintes modelos: Naive Bayes, Regressão Logística e Random Forest, utilizando vetorizações TF-IDF e embeddings BERT em dois cenários, um com 48 classes e outro com as 10 mais frequentes. A análise inicial apresentou um desbalanceamento, resultando em desempenhos baixos. Testes exploratórios com um LLM (Mistral) confirmaram a hipótese de que a dificuldade dos modelos estava ligada a desafios na taxonomia das categorias e na qualidade dos rótulos. Para validar está hipótese, a taxonomia foi refinada, resultando em um novo dataset com 5 classes. Ao re-treinar o melhor modelo, Random Forest com TF-IDF, neste novo cenário, o desempenho melhorou
     
    Abstract: This work evaluates the performance of supervised machine learning models and explores the potential of Large Language Models (LLMs) for the automatic classification of client verbatims in the pension plan industry. The following models were compared: Naive Bayes, Logistic Regression, and Random Forest, using TF-IDF vectorization and BERT embeddings in two scenarios, one with 48 classes and another with the 10 most frequent ones. The initial analysis revealed a class imbalance, resulting in low performance. Exploratory tests with an LLM (Mistral) confirmed the hypothesis that the models’ difficulty was linked to challenges in the category taxonomy and label quality. To validate this hypothesis, the taxonomy was refined, resulting in a new dataset with 5 classes. Upon retraining the best model, Random Forest with TF-IDF, in this new scenario, the performance improved
     
    URI
    https://hdl.handle.net/1884/98978
    Collections
    • Data Science & Big Data [163]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV