Show simple item record

dc.contributor.advisorFabro, Marcos Didonet Delpt_BR
dc.contributor.authorFerri, Juniorpt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informáticapt_BR
dc.date.accessioned2018-01-29T16:48:47Z
dc.date.available2018-01-29T16:48:47Z
dc.date.issued2016pt_BR
dc.identifier.urihttp://hdl.handle.net/1884/46487
dc.descriptionOrientador : Marcos Didonet Del Fabropt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 29/08/2016pt_BR
dc.descriptionInclui referências : f. 47-50pt_BR
dc.descriptionÁrea de concentração: Ciência da computaçãopt_BR
dc.description.abstractResumo: As técnicas de extração de informações estão sempre evoluindo para serem capazes de trabalhar com a quantidade crescente de dados disponíveis através de textos em linguagem natural e não estruturados. Destacamos a subtarefa da extração de informação conhecida como reconhecimento de entidades nomeadas baseado em dicionário, que realiza a identificação de sequências de caracteres que representam entidades de um determinado grupo, e o bom desempenho dessa subtarefa é fundamental para um bom processo de extração de informação. O reconhecimento de entidades nomeadas (NER) permite definir os sujeitos que são abordados pelo texto como organizações, pessoas, locais, etc. Pontos que ainda são desafios dentro da subtarefa de NER para sistemas baseados em dicionário são a presença de erros ortográficos nos textos e a existência de poucos sistemas de NER capazes de trabalhar em diferentes contextos. Esse trabalho apresenta uma abordagem para o reconhecimento de entidades nomeadas baseado em dicionário. Para trabalhar com textos que podem apresentar erros ortográficos, é utilizada uma busca por associação aproximada baseada na distância de edição entre as sequências de caracteres que representam a entrada do dicionário e as sub-partes do texto. Para promover a redução do erro entre as sequências de caracteres (SC) e facilitar a busca por associação aproximada são utilizados algoritmos de transformação. Esses algoritmos permitem a busca sobre o dicionário encontrar uma quantidade maior de entidades se comparada com as buscas utilizando as SCs originais para um mesmo valor da distância de edição aceita. As transformações também colaboram com a redução do tamanho das SCs e com a criação de mais prefixos similares, promovendo uma redução no tamanho da árvore de prefixo que indexa o dicionário. Para melhorar a precisão da nossa abordagem, disponibilizamos recursos de filtragem que fazem uso de métricas de similaridade para eliminar entidades falsas que foram retornadas da busca sobre o dicionário. Nossa abordagem também foi projetada para permitir a configuração de alguns componentes de forma a ser adaptada para diferentes casos de estudo. Palavras-chave: Reconhecimento de entidades nomeadas, Associação Aproximada de Sequências de Caracteres, Conversão fonética.pt_BR
dc.description.abstractAbstract: The information extraction techniques are always evolving to be able to work with the increasing amount of unstructured data available through texts in natural language. We highlight the information extraction subtask known as dictionary-based named entity recognition, which performs the identification of strings that represent entities of a particular group, and the good performance of this sub-task is critical for a good extracting information process. The named entity recognition (NER) defines the nouns that are covered by the text as organizations, people, places, etc. Some subjects that still represent chalenges in the sub-task of NER for currently systems that are dictionary-based are the presence of spelling errors in the text and the existence of few NER systems that are able to work in different contexts. This work presents an approach of a dictionary-based named entity recognition. Looking to work with texts that may have spelling errors, we use an approximate string matching search based on edit distance between the strings that represent the entries of the dictionary and the substrings of the text. To further the reduction of the error between the strings and facilitate the search using approximate matching we used transformation algorithms. These algorithms allow the search on the dictionary find a greater amount of entities if compared with the search using the original strings, for the same value of Edit Distance. Transformations also promote the strings size reduction and create more similar prefixes, promoting a reduction in the size of the prefix tree (trie) that indexes the dictionary. To improve the precision of our approach, we provide filtering capabilities that make use of similarity metrics to eliminate false entities that have been returned from the search on the dictionary trie. Our approach is also designed to enable the configuration of some components to be adapted to different study cases. Keywords: Named entity recognition, Approximate string matching, Phonetic conversion.pt_BR
dc.format.extent50 f. : il., algumas color., tabs., grafs.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.relationDisponível em formato digitalpt_BR
dc.subjectCiência da computaçãopt_BR
dc.subjectProcessamento eletronico de dadospt_BR
dc.subjectSistemas eletronicospt_BR
dc.subjectTesespt_BR
dc.titleAbordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximadapt_BR
dc.typeDissertaçãopt_BR


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record