Construção de gramática do português para um estudo comparativo da robustez de alguns algoritmos de análise gramatical
Abstract
RESUMO O número de aplicações na área de processamento de linguagem natural tem crescido nos últimos tempos e, com isso, o uso de algoritmos de análise gramatical também tem aumentado. A partir disso, propôs-se o desenvolvimento do presente trabalho cujos objetivos foram: 1) desenvolver uma gramática do português, para tratar os casos mais comuns de erros de crase e de colocação pronominal, em duas versões principais: uma, que gera apenas orações corretas e outra, que gera orações corretas e, também, orações incorretas em relação a esses dois erros; 2) utilizar, na construção da gramática, um formalismo baseado na unificação de traços; 3) utilizar em cada gramática os algoritmos top-down simples, chart bottom-up e Earley; 4) fazer um estudo comparativo do desempenho dos algoritmos de análise gramatical nas gramáticas. Para a construção das gramáticas utilizamos uma extensão da linguagem Prolog chamada GULP. Após a construção da gramática que gera apenas orações corretas, foi necessário fazer várias modificações nela, para que gerasse também orações incorretas. Ao final do trabalho, fizemos a avaliação do desempenho dos algoritmos de análise gramatical através do número de inferencias realizadas pelas gramáticas em cada oração de teste. ABSTRACT The number of applications in the area of natural language processing has grown lately and, with this, the use of algorithms of grammatical analysis has also increased. It was from this point that the development of the present work was proposed considering the following objectives: 1) developing a Portuguese grammar to deal with the most common cases of errors concerning crasis and pronominal collocation, in two main versions: one, that generates only correct clauses and another that generates both correct and incorrect clauses in relation to these two kinds of errors; 2) using, in the construction of the grammar, a formalism based on the unification of traits; 3) use in each grammar the simple top-down, chart bottom-up and Earley algorithms; 4) making a comparative study of the performance of the algorithms of grammatical analysis in the grammars. For the construction of the grammars we used an extension of the Prolog language called GULP. After the construction of the grammar which accepts only correct clauses, it was necessary to make several modifications in it so that it also generated incorrect clauses. At the end of the work, we made a performance evaluation of the grammatical analysis algorithms through the number of inferences carried out by the grammars in each test clause.
Collections
- Teses & Dissertações [10011]