Mostrar registro simples

dc.contributor.advisorHara, Carmem Satie, 1964-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informáticapt_BR
dc.creatorReips, Lisianept_BR
dc.date.accessioned2024-01-31T21:47:57Z
dc.date.available2024-01-31T21:47:57Z
dc.date.issued2023pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/86318
dc.descriptionOrientador: Carmem Satie Harapt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 18/10/2023pt_BR
dc.descriptionInclui referênciaspt_BR
dc.descriptionÁrea de concentração: Ciência da Computaçãopt_BR
dc.description.abstractResumo: A transição dos meios de comunicação tradicionais para o ambiente digital abrange diversas áreas. Dentre estes meios, destacam-se os jornais, que têm disponibilizado seu conteúdo online, permitindo o acesso a uma diversidade de dados na Web. Para explorar estes dados, eles precisam ser extraídos, armazenados, organizados e filtrados de acordo com os interesses da aplicação. Entretanto, os sistemas que viabilizam esses processos nem sempre dão suporte a todas as funcionalidades. Alguns focam somente em extração e armazenamento, enquanto outros englobam extração, processamento e transformação. Há ainda aqueles que abrangem somente a transformação e filtragem. Nesse contexto, surge o Extrator de Notícias da Web1 (ENoW), um sistema de coleta de dados de jornais online que pré-processa os dados coletados, com o intuito de filtrar apenas as notícias de interesse do usuário. O ENoW aceita como entrada strings de busca, realiza a coleta de notícias relacionadas àquela string e armazena as notícias coletadas em uma base de dados relacional. O sistema mantém a proveniência dos dados, bem como um log com histórico de extrações. Ele foi implementado na linguagem de programação Python, utilizando técnicas de Web Scraping. A avaliação do ENoW foi realizada por meio de uma análise experimental. O processo envolve a coleta de dados de notícias de um conjunto de URLs, seguido do pré-processamento destes dados. Além disso, são empregados algoritmos de aprendizado de máquina e cálculos de semelhança de textos para a filtragem das notícias. Um estudo de caso sobre notícias referentes a caravelas-portuguesas (cnidário Physalia physalis) mostra o desempenho do processo de filtragem. Palavras-chave: Extração de Notícias. Armazenamento Relacional.pt_BR
dc.description.abstractAbstract: The transition from traditional media to the digital environment covers many areas. Newspapers around the world have made their content available online, allowing access to a variety of data on the Web. To exploit this data, they need to be extracted, stored, organized and filtered according to the interests of the application. However, the systems that enable these processes don't always support all the functionalities. Some focus only on extraction and storage, while others encompass extraction, processing and transformation. There are also those that only cover transformation and filtering. In this context, we have developed the Extractor de Notícias da Web (ENoW). It is a system for collecting data from online newspapers and for processing the collected data in order to filter out only the news of interest to the user. ENoW accepts a set of strings as input, collects news related to that string, and stores the collected news in a relational database. The system maintains the provenance of the data, as well as a log with the history of extractions. It was implemented in Python using Web Scraping techniques. We have conducted an experimental analysis involving the collection of news data from a set of URLs. The system pre-processes this data and uses machine learning algorithms and text similarity calculations to filter the news. A case study of news involving Portuguese man-of-war (cnidarian Physalia physalis) shows the effectiveness of the filtering process. Keywords: News Extraction. Relational Storage.pt_BR
dc.format.extent1 recurso online : PDF.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languagePortuguêspt_BR
dc.subjectAgências de notíciaspt_BR
dc.subjectJornais eletrônicospt_BR
dc.subjectWorld Wide Web (Sistema de recuperação da informação)pt_BR
dc.subjectRedes de informaçãopt_BR
dc.subjectSistemas de recuperação da informaçãopt_BR
dc.subjectCiência da Computaçãopt_BR
dc.titleENoW : um extrator de notícias da Webpt_BR
dc.typeDissertação Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples