Exploration of graph-based representation strategies for text
Resumo
Resumo: Este trabalho apresenta um estudo de como representar textos por meio de grafos e o impacto que cada representação tem na tarefa de classificação de textos ao considerar um modelo de aprendizagem profundo (geometric deep learning). Um modelo de aprendizagem profundo baseado em atenção que classifica grafos foi escolhido da literatura para realizar a tarefa de classificação. Diversas disciplinas, como linguística, grafos e aprendizado de máquina, foram empregadas para realizar este estudo. Com os conceitos dessas disciplinas foi possível desenvolver um protocolo experimental que utilizou quatro estratégias de representação contendo, no total, doze formas diferentes de representar texto através de grafos. Essas representações foram utilizadas em seis conjuntos de dados de diferentes idiomas: dois em inglês, um em português brasileiro e três em alemão. Das representações utilizadas, nove são inéditas e três são baseadas na literatura. Experimentos com esses conjuntos de dados representados com as doze estratégias diferentes revelaram que a representação do texto é um fator que precisa ser considerado no processamento de texto. Outra descoberta é que nenhuma representação de texto estudada é melhor para todos os idiomas e tarefas de processamento de texto. Portanto, o ajuste de representação, assim como o ajuste de parâmetros para um modelo de aprendizagem profunda, é uma etapa extra que deve ser considerada no processamento de linguagem natural. Com este ajuste de representação é possível obter resultados mais precisos e de forma mais sustentável, permitindo novas interpretações dos resultados descritos na literatura. Os experimentos mostram que mesmo que nossos resultados não tenham um desempenho melhor do que o estado da arte, na maioria dos experimentos, o uso de um modelo de aprendizado profundo com ajuste de representação pode alcançar um resultado próximo ao estado da arte baseado em grafo, exigindo menos poder de processamento. Este trabalho também chama a atenção para estratégias baseadas em árvores de dependência, alternativas atraentes para representações de texto processáveis por máquina. Até então, essas árvores baseadas em dependências foram pouco exploradas na literatura. Abstract: This work presents a study of how to represent texts using graphs and the impact each representation has on the text classification task when considering deep learning models (geometric deep learning). An attention-based deep learning model that classifies graphs was chosen from the literature to perform the classification task. Several disciplines, such as linguistics, graphs, and machine learning, were employed to carry out this study. With the concepts of these disciplines, it was possible to develop an experimental protocol that used four representation strategies containing, in total, twelve different ways of representing text through graphs. These representations were used to represent six datasets from different languages: two in English, one in Brazilian Portuguese, and three in German. Of the representations used, nine are novel, and three are based on the literature. Experiments with these datasets represented with the twelve different strategies revealed that text representation is a factor that needs to be considered in text processing. Another finding is that no studied text representation is best for all languages and text processing tasks. Therefore, representation tuning, like parameter tuning for a deep learning model, is an extra step that must be considered in natural language processing. With this representation adjustment, it is possible to obtain more accurate results and do so more sustainably, allowing new interpretations of the results described in the literature. The experiments show that even if our results do not perform better than state-of-the-art, in most experiments, using a deep learning model with representation tuning can achieve a result close to the graph-based state-of-the-art, requiring less processing power. This work also draws attention to strategies based on dependency trees, attractive alternatives for machine-processable text representations. Until now, these dependency-based trees have been explored little in the literature.
Collections
- Teses [140]