Agrupamento de termos de relações espaciais semanticamente similares coletados a partir de descrições em linguagem natural do português brasileiro
Abstract
Resumo: Estudos em linguagem natural abordam a extração de pontos de referência e feições geográficas que são úteis em banco de dados para consultas de lugares, parques, praças, entre outros. Porém, estudos com termos de relações espaciais que fazem parte das descrições de localização do cotidiano das pessoas ainda são voltados para determinadas preposições e são explorados principalmente na língua inglesa. Os termos de relações espaciais topológicos também ganharam espaço nos estudos nas últimas décadas em função da robótica e de aplicações em Sistemas de Informações Geográficas. No entanto, necessita-se de mais estudos exploratórios em outras línguas e com outros tipos de relações espaciais, que não somente os topológicos. Desta maneira, poderá haver melhorias nas aplicações computacionais voltadas para a linguagem natural como similaridades semânticas e ontologias e em aplicações geoespaciais. Para tanto, esta pesquisa partiu da hipótese principal de que é possível agrupar os termos de relações espaciais descritas em linguagem natural por meio de um conjunto reduzido de termos semanticamente similares a partir de ambientes reais do cotidiano das pessoas. Para isto, foi desenvolvida uma metodologia para criação de grupos semanticamente similares de termos de relações espaciais utilizados na linguagem natural do português brasileiro. Para tanto foram realizados três testes. Dois testes para coleta, análise e verificação dos termos mais utilizados, sendo um no contexto outdoor e outro no contexto indoor com a proposição de duas hipóteses: 1) pelo grau de liberdade que a linguagem natural oferece, os termos de relações espaciais que se destacam são diferentes para cada tipo de ambiente; 2) se as pessoas fazem descrições de localização em linguagem natural em um determinado contexto e ambiente, de acordo com suas percepções do ambiente e do espaço e são livres para optar pelos elementos a serem relacionados, então elas utilizam os termos de relações espaciais no referencial centrado nos objetos. O terceiro teste de associação livre foi realizado para obtenção dos agrupamentos iniciais de termos de relações espaciais com a proposição de mais duas hipóteses: 1) se os termos semanticamente similares de relações espaciais encontrados através do mesmo relatum e do mesmo locatum dos dois primeiros testes coincidem com os termos encontrados no teste de associação livre; 2) se é possível criar uma classe de termos semanticamente similares. Para a obtenção dos agrupamentos finais foram elaboradas e aplicadas cinco regras para contribuir e facilitar o processo de identificação e análise dos grupos de relações espaciais utilizados como semanticamente similares na língua portuguesa brasileira. Além do que, espera-se que tais regras possam ser aplicadas para outras línguas. Um dos resultados mostra que foi possível verificar o distanciamento dos termos similares pela quantidade de citações de cada termo em ordem decrescente. Isto facilita a utilização dos termos em aplicações computacionais que necessitem a utilização de mais de um termo, como por exemplo, a geração de descrições de localização em linguagem natural. Além disso, os termos encontrados podem ser utilizados no conjunto de interfaces do projeto Where am I? (parceria UFPR e Massey University da Nova Zelândia) respeitando as classificações de cada termo. Abstract: Studies in natural language address the extraction of landmarks and geographic features that are useful in databases for queries of places, parks, squares, among others. And studies with terms of spatial relations that are part of the descriptions of people's daily lives are still focused on certain prepositions and are explored mainly in the English language. Additionally, terms of topological spatial relations have also gained space in studies in the last decades due to robotics and applications in Geographic Information Systems. However, more exploratory studies are needed in other languages and with other types of spatial relations, not just topological ones. In this way, there may be improvements in computational applications for natural language such as semantic similarities, ontologies and in geospatial applications. To this end, this research started from the main hypothesis that it is possible to group the terms of spatial relations described in natural language through a reduced set of semantically similar terms from real environments of people's daily lives. For this, a methodology was developed to create semantically similar groups of terms of spatial relations used in the natural language of Brazilian Portuguese. For this purpose, three tests were carried out. Two tests were for collection, analysis and verification of the most used terms, one in the outdoor context and the other in the indoor context with the proposition of two hypotheses: 1) by the freedom that natural language offers, the terms of spatial relations that stand out in the descriptions are different for each type of environment; 2) if people make descriptions of location in natural language in a given context and environment, according to their perceptions of the environment and space and they are free to choose the elements to be related, then they use the terms of relations in the objectcentered framework. The third was the free association test and it was performed to obtain the initial groups of terms of spatial relations. To this test was made the proposition of two more hypotheses: 1) if the semantically similar terms of spatial relations found through the same relatum and the same locatum of the first two tests coincide with the terms found in the free association test; 2) it is possible to create a class of semantically similar terms. To obtain the final groups, five rules were elaborated and applied to contribute and facilitate the process of identification and analysis of groups of spatial relations used as semantically similar in the Brazilian Portuguese language. In addition, it is hoped that such rules can be applied to other languages. One of the results shows that it was possible to verify the distance from similar terms by accounting for the number of citations for each term in decreasing order. This result facilitates the use of terms in computational applications that require the use of more than one term, such as, for example, the generation of location descriptions in natural language. In addition, the terms found can be used in the set of interfaces of the Where am I? project (the agreement of UFPR and Massey University of New Zealand) respecting the classification of each term.
Collections
- Teses [86]