• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016030P0 Programa de Pós-Graduação em Métodos Numéricos em Engenharia
    • Teses
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016030P0 Programa de Pós-Graduação em Métodos Numéricos em Engenharia
    • Teses
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Aprimoramento do modelo BERT para análise de intenção em textos : aplicação em chatbot no setor de óleo e gás

    Thumbnail
    Visualizar/Abrir
    R - T - RUBIA MARIA PEREIRA.pdf (1.462Mb)
    Data
    2025
    Autor
    Pereira, Rúbia Maria
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Esta tese investiga a classificação de intenções textuais no setor de petróleo e gás, considerando cenários caracterizados por conjuntos de dados rotulados pequenos e linguagem técnico-financeira especializada. A motivação do estudo decorre das limitações observadas na aplicação direta de modelos de linguagem pré-treinados em domínios específicos, nos quais a escassez de dados anotados e a proximidade semântica entre categorias de intenção dificultam a obtenção de classificações consistentes. Nesse contexto, o objetivo central foi avaliar a eficácia de uma abordagem de análise de intenção adaptada a esse domínio. Para atender a esse objetivo, foi proposto o modelo OilFinBERT, baseado na arquitetura BERT e adaptado ao setor de petróleo e gás por meio de pré-treinamento contínuo e estratégias de ajuste supervisionado. O estudo considerou cinco categorias de intenção relevantes ao domínio técnico-financeiro (sendo elas: previsão de preço, análise de sentimento, conceito, outros e preço atual), organizadas na base de dados OilFinIntent, construída especificamente para este trabalho. Além disso, foi utilizado um conjunto de mais de 400 mil títulos de notícias do setor como dados não rotulados, empregado na etapa de especialização do modelo ao vocabulário do domínio. A metodologia incluiu experimentos de fine-tuning com diferentes otimizadores, técnicas de regularização e duas estratégias de modelagem para a tarefa de classificação de intenções: multiclasse plana e hierárquica. O desempenho do OilFinBERT foi comparado a modelos de referência amplamente utilizados na literatura, incluindo Naive Bayes, Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Long Short Term Memory (LSTM) e BERT-base. A avaliação foi conduzida por meio de métricas adequadas a cenários multiclasse e com distribuição equilibrada entre classes, com destaque para o F1-macro e a PR-AUC. Os resultados indicaram que a abordagem hierárquica do OilFinBERT apresentou desempenho superior em relação às demais configurações avaliadas, evidenciando maior equilíbrio entre precisão e recall ao longo das diferentes classes de intenção. Observou-se ainda que estratégias de regularização e otimizadores adaptativos contribuem para maior estabilidade no processo de ajuste supervisionado em conjuntos de dados reduzidos. A comparação com os modelos de referência reforçou a importância da adaptação explícita ao domínio para alcançar desempenho consistente em tarefas de análise de intenção com textos especializados. Conclui-se que a combinação de pré-treinamento contínuo, técnicas de regularização e modelagem hierárquica constitui uma abordagem adequada para a classificação de intenções em contextos técnicos com disponibilidade limitada de dados rotulados. Como principal contribuição, esta tese demonstra a eficácia do OilFinBERT hierárquico e disponibiliza uma base de dados específica para o setor de petróleo e gás, contribuindo para a reprodutibilidade e o avanço de pesquisas futuras em Processamento de Linguagem Natural (PLN) aplicado a domínios especializados
     
    Abstract: This thesis investigates textual intent classification in the oil and gas sector, considering scenarios characterized by small labeled datasets and specialized technical-financial language. The motivation for this study arises from the limitations observed in the direct application of pre-trained language models to domain-specific contexts, in which the scarcity of annotated data and the semantic proximity between intent categories hinder the achievement of consistent classifications. Within this context, the main objective was to evaluate the effectiveness of an intent analysis approach adapted to this domain.To achieve this objective, the OilFinBERT model was proposed, based on the BERT architecture and adapted to the oil and gas sector through continued pre-training and supervised fine-tuning strategies. The study considered five intent categories relevant to the technical-financial domain—namely price forecasting, sentiment analysis, concept, others, and current price—organized in the OilFinIntent dataset, which was specifically constructed for this research. In addition, a collection of more than 400,000 news headlines from the sector was used as unlabeled data during the domain specialization stage of the model. The methodology included fine-tuning experiments with different optimizers, regularization techniques, and two modeling strategies for the intent classification task: flat multiclass and hierarchical classification. The performance of OilFinBERT was compared with widely used baseline models in the literature, including Naive Bayes, Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Long Short-Term Memory networks (LSTM), and BERT-base. The evaluation was conducted using metrics suitable for multiclass scenarios with balanced class distributions, with emphasis on F1-macro and PR-AUC. The results indicated that the hierarchical OilFinBERT approach achieved superior performance compared to the other evaluated configurations, demonstrating a more balanced trade-off between precision and recall across the different intent classes. It was also observed that regularization strategies and adaptive optimizers contributed to greater stability in the supervised fine-tuning process when applied to small datasets. The comparison with baseline models reinforced the importance of explicit domain adaptation to achieve consistent performance in intent analysis tasks involving specialized texts. It is concluded that the combination of continued pre-training, regularization techniques, and hierarchical modeling constitutes an appropriate approach for intent classification in technical contexts with limited availability of labeled data. As its main contribution, this thesis demonstrates the effectiveness of the hierarchical OilFinBERT model and provides a domain-specific dataset for the oil and gas sector, contributing to reproducibility and to future research in Natural Language Processing (NLP) applied to specialized domains
     
    URI
    https://hdl.handle.net/1884/100957
    Collections
    • Teses [112]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV