• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Teses
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Teses
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Exploration of graph-based representation strategies for text

    Thumbnail
    Visualizar/Abrir
    R - T - HENRIQUE VARELLA EHRENFRIED.pdf (4.505Mb)
    Data
    2024
    Autor
    Ehrenfried, Henrique Varella
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Este trabalho apresenta um estudo de como representar textos por meio de grafos e o impacto que cada representação tem na tarefa de classificação de textos ao considerar um modelo de aprendizagem profundo (geometric deep learning). Um modelo de aprendizagem profundo baseado em atenção que classifica grafos foi escolhido da literatura para realizar a tarefa de classificação. Diversas disciplinas, como linguística, grafos e aprendizado de máquina, foram empregadas para realizar este estudo. Com os conceitos dessas disciplinas foi possível desenvolver um protocolo experimental que utilizou quatro estratégias de representação contendo, no total, doze formas diferentes de representar texto através de grafos. Essas representações foram utilizadas em seis conjuntos de dados de diferentes idiomas: dois em inglês, um em português brasileiro e três em alemão. Das representações utilizadas, nove são inéditas e três são baseadas na literatura. Experimentos com esses conjuntos de dados representados com as doze estratégias diferentes revelaram que a representação do texto é um fator que precisa ser considerado no processamento de texto. Outra descoberta é que nenhuma representação de texto estudada é melhor para todos os idiomas e tarefas de processamento de texto. Portanto, o ajuste de representação, assim como o ajuste de parâmetros para um modelo de aprendizagem profunda, é uma etapa extra que deve ser considerada no processamento de linguagem natural. Com este ajuste de representação é possível obter resultados mais precisos e de forma mais sustentável, permitindo novas interpretações dos resultados descritos na literatura. Os experimentos mostram que mesmo que nossos resultados não tenham um desempenho melhor do que o estado da arte, na maioria dos experimentos, o uso de um modelo de aprendizado profundo com ajuste de representação pode alcançar um resultado próximo ao estado da arte baseado em grafo, exigindo menos poder de processamento. Este trabalho também chama a atenção para estratégias baseadas em árvores de dependência, alternativas atraentes para representações de texto processáveis por máquina. Até então, essas árvores baseadas em dependências foram pouco exploradas na literatura.
     
    Abstract: This work presents a study of how to represent texts using graphs and the impact each representation has on the text classification task when considering deep learning models (geometric deep learning). An attention-based deep learning model that classifies graphs was chosen from the literature to perform the classification task. Several disciplines, such as linguistics, graphs, and machine learning, were employed to carry out this study. With the concepts of these disciplines, it was possible to develop an experimental protocol that used four representation strategies containing, in total, twelve different ways of representing text through graphs. These representations were used to represent six datasets from different languages: two in English, one in Brazilian Portuguese, and three in German. Of the representations used, nine are novel, and three are based on the literature. Experiments with these datasets represented with the twelve different strategies revealed that text representation is a factor that needs to be considered in text processing. Another finding is that no studied text representation is best for all languages and text processing tasks. Therefore, representation tuning, like parameter tuning for a deep learning model, is an extra step that must be considered in natural language processing. With this representation adjustment, it is possible to obtain more accurate results and do so more sustainably, allowing new interpretations of the results described in the literature. The experiments show that even if our results do not perform better than state-of-the-art, in most experiments, using a deep learning model with representation tuning can achieve a result close to the graph-based state-of-the-art, requiring less processing power. This work also draws attention to strategies based on dependency trees, attractive alternatives for machine-processable text representations. Until now, these dependency-based trees have been explored little in the literature.
     
    URI
    https://hdl.handle.net/1884/88517
    Collections
    • Teses [134]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV