ENoW : um extrator de notícias da Web
Resumo
Resumo: A transição dos meios de comunicação tradicionais para o ambiente digital abrange diversas áreas. Dentre estes meios, destacam-se os jornais, que têm disponibilizado seu conteúdo online, permitindo o acesso a uma diversidade de dados na Web. Para explorar estes dados, eles precisam ser extraídos, armazenados, organizados e filtrados de acordo com os interesses da aplicação. Entretanto, os sistemas que viabilizam esses processos nem sempre dão suporte a todas as funcionalidades. Alguns focam somente em extração e armazenamento, enquanto outros englobam extração, processamento e transformação. Há ainda aqueles que abrangem somente a transformação e filtragem. Nesse contexto, surge o Extrator de Notícias da Web1 (ENoW), um sistema de coleta de dados de jornais online que pré-processa os dados coletados, com o intuito de filtrar apenas as notícias de interesse do usuário. O ENoW aceita como entrada strings de busca, realiza a coleta de notícias relacionadas àquela string e armazena as notícias coletadas em uma base de dados relacional. O sistema mantém a proveniência dos dados, bem como um log com histórico de extrações. Ele foi implementado na linguagem de programação Python, utilizando técnicas de Web Scraping. A avaliação do ENoW foi realizada por meio de uma análise experimental. O processo envolve a coleta de dados de notícias de um conjunto de URLs, seguido do pré-processamento destes dados. Além disso, são empregados algoritmos de aprendizado de máquina e cálculos de semelhança de textos para a filtragem das notícias. Um estudo de caso sobre notícias referentes a caravelas-portuguesas (cnidário Physalia physalis) mostra o desempenho do processo de filtragem. Palavras-chave: Extração de Notícias. Armazenamento Relacional. Abstract: The transition from traditional media to the digital environment covers many areas. Newspapers around the world have made their content available online, allowing access to a variety of data on the Web. To exploit this data, they need to be extracted, stored, organized and filtered according to the interests of the application. However, the systems that enable these processes don't always support all the functionalities. Some focus only on extraction and storage, while others encompass extraction, processing and transformation. There are also those that only cover transformation and filtering. In this context, we have developed the Extractor de Notícias da Web (ENoW). It is a system for collecting data from online newspapers and for processing the collected data in order to filter out only the news of interest to the user. ENoW accepts a set of strings as input, collects news related to that string, and stores the collected news in a relational database. The system maintains the provenance of the data, as well as a log with the history of extractions. It was implemented in Python using Web Scraping techniques. We have conducted an experimental analysis involving the collection of news data from a set of URLs. The system pre-processes this data and uses machine learning algorithms and text similarity calculations to filter the news. A case study of news involving Portuguese man-of-war (cnidarian Physalia physalis) shows the effectiveness of the filtering process. Keywords: News Extraction. Relational Storage.
Collections
- Dissertações [355]