• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Dissertações
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Dissertações
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais

    Thumbnail
    Visualizar/Abrir
    R - D - MURILO FALLEIROS LEMOS SCHMITT.pdf (1.824Mb)
    Data
    2018
    Autor
    Schmitt, Murilo Falleiros Lemos
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Análise de sentimento é uma tarefa importante na área de Processamento de Linguagem Natural que consiste em automaticamente atribuir documentos de texto a classes previamente definidas que representam sentimentos ou opiniões positivas/negativas em relação a um determinado assunto. Para resolução dessa tarefa, podem ser utilizadas técnicas de aprendizado de máquina. No entanto, para que possam atingir uma boa capacidade de generalização, essas técnicas dependem de um pré-processamento cuidadoso e de uma representação adequada dos dados. Este trabalho propõe tratar essas questões fundamentais por meio de redes neurais convolucionais e algoritmos de agrupamento baseados em densidade. As representações de palavras utilizadas neste trabalho foram obtidas de vetores previamente treinados de maneira não-supervisionada, denominados word embeddings. Essas representações são capazes de capturar informações sintáticas e semânticas das palavras, o que leva palavras similares a serem projetadas próximas no espaço semântico. Neste cenário, o modelo proposto utiliza um algoritmo de agrupamento no espaço semântico para extrair informações adicionais das representações vetoriais das palavras com o objetivo de melhorar o desempenho da rede neural convolucional. Utilizou-se um algoritmo de agrupamento baseado em densidade para detecção e remoção de outliers dos documentos a serem classificados, antes desses documentos serem treinados e classificados pela rede neural convolucional. Para análise do modelo proposto, foram conduzidos experimentos com dois algoritmos de obtenção de word embeddings sobre cinco bases de dados, estudando-se o impacto da remoção de outliers em diferentes graus de intensidade. Os resultados demonstram que os outliers têm pouco impacto na taxa de acerto do classificador, podendo aumentar ligeiramente, mas sua remoção pode impactar positivamente no desempenho em termos de tempo de execução da rede.
     
    Abstract: Sentiment analysis is an important task in Natural Language Processing that consists in automatically assigning text documents to predefined classes that represent sentiments or a positive/negative opinion about a subject. To solve this task, machine learning techniques can be used. However, in order to achieve good generalization, these techniques require a thorough preprocessing and an appropriate data representation. To deal with these fundamental issues, this work proposes the use of convolutional neural networks and density-based clustering algorithms. The word representations used in this work were obtained from vectors previously trained in an unsupervised way, denominated word embeddings. These representations are able to capture syntactic and semantic information of words, which leads to similar words being projected closer together in the semantic space. In this scenario, in order to improve the performance of the convolutional neural network, the use of a clustering algorithm in the semantic space to extract additional information from the data is proposed. A density-based clustering algorithm was used to detect and remove outliers from the documents to be classified before these documents were used to train the convolutional neural network. To evaluate the proposed method, experiments were conducted with two different embeddings across five datasets, by studying the impact of the removal of outliers in different degrees of intensity. Results show that the outliers have little impact on the classifier's accuracy, being able to improve it slightly, but their removal can have positive impact on performance in terms of network runtime.
     
    URI
    https://hdl.handle.net/1884/58196
    Collections
    • Dissertações [258]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV