• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016043P4 Programa de Pós-Graduação em Engenharia Elétrica
    • Dissertações
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016043P4 Programa de Pós-Graduação em Engenharia Elétrica
    • Dissertações
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Relation extraction techniques applied to the portuguese news domain

    Thumbnail
    Visualizar/Abrir
    R - D - LUIZ FELIPE MANKE.pdf (5.067Mb)
    Data
    2022
    Autor
    Manke, Luiz Felipe
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: Not'icias negativas s˜ao definidas como qualquer tipo de informa¸c˜ao desfavor'avel encontrada em uma grande variedade de fontes de not'icias. A triagem dessas not'icias significa identificar e monitorar uma grande variedade de conte'udos de m'idias convencionais impressas e televisivas, juntamente com conte'udos on-line, como blogs e feeds de m'idias sociais. Este processo deve ser uma parte importante do processo de due diligence de qualquer institui¸c˜ao financeira para mitigar os riscos ao iniciar qualquer relacionamento comercial. A automa¸c˜ao 'e mais r'apida do que a triagem humana e pode ser melhor adaptada 'as preocupa¸c˜oes comerciais exclusivas de uma empresa. Com as vantagens do Machine Learning, agora 'e poss'ivel analisar as not'icias e isolar as entidades reais que foram identificadas como tendo informa¸c˜oes adversas sem verificar manualmente cada artigo. Estas t'ecnicas fazem parte da 'area de Extra¸c˜ao de Relacionamento, que vem do campo de Processamento de Linguagem Natural, e visa identificar automaticamente as associa¸c˜oes semˆanticas (rela¸c˜oes) entre as entidades nomeadas no texto. Esta disserta¸c˜ao prop˜oe desenvolver diferentes solu¸c˜oes de Extra¸c˜ao de Relacionamento para a tarefa espec'ifica de automatizar o processo de busca de not'icias negativas dentro da l'ingua portuguesa. Com base em um estudo cuidadoso da estrutura te'orica e uma revis˜ao sistem'atica da literatura sobre o assunto, trˆes abordagens diferentes foram propostas para resolver o problema: (i) um m'etodo de Embedding Sub-sequences, que usa os vetores de incorpora¸c˜ao das entidades como entrada para um classificador de Floresta Aleat'oria; (ii) uma Graph Convolutional Neural Network, que usa vetores de incorpora¸c˜ao junto com 'arvores parciais de dependˆencia como entrada para camadas convolutivas; e (iii) uma Transformer Neural Network, que usa uma rede neural pr'e-treinada que se baseia exclusivamente em mecanismos de aten¸c˜ao. Para avaliar as metodologias propostas, foi constru'ido um benchmark em portuguˆes para o dom'inio not'icias, onde os textos em n'ivel de senten¸ca das not'icias foram coletados manualmente, processados e rotulados em uma categoria bin'aria. Os m'etodos foram comparados em termos da pontua¸c˜ao F1, que 'e a m'edia harmˆonica entre as m'etricas de precis˜ao e recall. Ap'os uma valida¸c˜ao cruzada de cinco dobras, a metodologia Transformer mostrou resultados notavelmente melhores do que as outras abordagens, atingindo uma pontua¸c˜ao de F1 de 91,72, que foi 10% maior do que a pontua¸c˜ao do Graph CNN, e 27% maior do que a pontua¸c˜ao do Embedding Sub-sequences. Estes valores tamb'em s˜ao significativos quando comparados ao estado da arte. Al'em disso, foram aplicados os m'etodos Shapley Additive Explanations para melhor compreender a influˆencia que cada caracter'istica de entrada (palavras) tem no valor previsto, o que tamb'em destacou como o m'etodo Transformer superou as outras metodologias, dando grande aten¸c˜ao a palavras importantes pr'oximas 'as entidades, enquanto as outras metodologias n˜ao puderam se concentrar no contexto principal das frases
     
    Abstract: Negative news is defined as any kind of unfavorable information found across a wide variety of news sources. Screening for these news means identifying and monitoring a large range of conventional printed and televised media content, along with online content like blogs and social media feeds. This process should be an important part of any financial institution’s customer due diligence process to mitigate risks when starting any business relationship. Automation is faster than human screening and can be better tailored to a company’s unique business concerns. With the advantages of Machine Learning, now it’s possible to analyze news and isolate the actual entities that have been identified as having adverse information without manually checking each article. These techniques are part of the Relation Extraction area, which comes from the Natural Language Processing field, and aims to automatically identify semantic associations (relations) between named entities in text. This thesis proposes to develop different Relation Extraction solutions to the specific task of automating the process of negative news search within the Portuguese language. Based on a careful study of the theoretical framework and a systematic literature review on the subject, three different approaches were proposed to solve the problem: (i) an Embedding Sub-sequences method, that uses the embedding vectors from around the entities as input to a Random Forest classifier; (ii) a Graph Convolutional Neural Network, that uses embedding vectors along with dependency parse trees as input to convolutional layers; and (iii) a Transformer Neural Network, which uses a pre-trained neural network that is based solely on attention mechanisms. To evaluate the proposed methodologies, a Portuguese benchmark was built for the News domain, where sentence-level texts from news were manually collected, processed, and labeled into a binary category. The methods were compared in terms of the F1 score, which is the harmonic mean between precision and recall metrics. After a 5-fold cross-validation, the Transformer methodology showed notably better results than the other approaches, reaching an F1 score of 91.72, which was 10% higher than the Graph CNN score, and 27% higher than the Embedding Sub-sequences score. These values are also significant when compared to state-of-the-art results. Additionally, Shapley Additive Explanations were applied the methods to better understand the influence that each input feature (words) has on the predicted value, which also highlighted how the Transformer method overcame the other methodologies by giving great attention to important words close to the entities, while the other methodologies couldn’t focus on the main context of the sentences.
     
    URI
    https://hdl.handle.net/1884/79797
    Collections
    • Dissertações [239]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV