• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Dissertações
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016034P5 Programa de Pós-Graduação em Informática
    • Dissertações
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    ENoW : um extrator de notícias da Web

    Thumbnail
    Visualizar/Abrir
    R - D - LISIANE REIPS.pdf (4.859Mb)
    Data
    2023
    Autor
    Reips, Lisiane
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A transição dos meios de comunicação tradicionais para o ambiente digital abrange diversas áreas. Dentre estes meios, destacam-se os jornais, que têm disponibilizado seu conteúdo online, permitindo o acesso a uma diversidade de dados na Web. Para explorar estes dados, eles precisam ser extraídos, armazenados, organizados e filtrados de acordo com os interesses da aplicação. Entretanto, os sistemas que viabilizam esses processos nem sempre dão suporte a todas as funcionalidades. Alguns focam somente em extração e armazenamento, enquanto outros englobam extração, processamento e transformação. Há ainda aqueles que abrangem somente a transformação e filtragem. Nesse contexto, surge o Extrator de Notícias da Web1 (ENoW), um sistema de coleta de dados de jornais online que pré-processa os dados coletados, com o intuito de filtrar apenas as notícias de interesse do usuário. O ENoW aceita como entrada strings de busca, realiza a coleta de notícias relacionadas àquela string e armazena as notícias coletadas em uma base de dados relacional. O sistema mantém a proveniência dos dados, bem como um log com histórico de extrações. Ele foi implementado na linguagem de programação Python, utilizando técnicas de Web Scraping. A avaliação do ENoW foi realizada por meio de uma análise experimental. O processo envolve a coleta de dados de notícias de um conjunto de URLs, seguido do pré-processamento destes dados. Além disso, são empregados algoritmos de aprendizado de máquina e cálculos de semelhança de textos para a filtragem das notícias. Um estudo de caso sobre notícias referentes a caravelas-portuguesas (cnidário Physalia physalis) mostra o desempenho do processo de filtragem. Palavras-chave: Extração de Notícias. Armazenamento Relacional.
     
    Abstract: The transition from traditional media to the digital environment covers many areas. Newspapers around the world have made their content available online, allowing access to a variety of data on the Web. To exploit this data, they need to be extracted, stored, organized and filtered according to the interests of the application. However, the systems that enable these processes don't always support all the functionalities. Some focus only on extraction and storage, while others encompass extraction, processing and transformation. There are also those that only cover transformation and filtering. In this context, we have developed the Extractor de Notícias da Web (ENoW). It is a system for collecting data from online newspapers and for processing the collected data in order to filter out only the news of interest to the user. ENoW accepts a set of strings as input, collects news related to that string, and stores the collected news in a relational database. The system maintains the provenance of the data, as well as a log with the history of extractions. It was implemented in Python using Web Scraping techniques. We have conducted an experimental analysis involving the collection of news data from a set of URLs. The system pre-processes this data and uses machine learning algorithms and text similarity calculations to filter the news. A case study of news involving Portuguese man-of-war (cnidarian Physalia physalis) shows the effectiveness of the filtering process. Keywords: News Extraction. Relational Storage.
     
    URI
    https://hdl.handle.net/1884/86318
    Collections
    • Dissertações [261]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV