Plataformas de web scraping em ambiente de computação em nuvem : uma perspectiva prática
Resumo
Resumo: Este trabalho tem como enfoque apresentar uma solução de engenharia de dados para o problema de scraping de dados web de maneira sistêmica e orquestrada, utilizando de uma infraestrutura hospedada em nuvem e declarada como código, bem como um pipeline de integração contínua e deploy contínuo para operacionalizar a adição de novos recursos e funções. Desta forma, um website com informações de partidas competitivas do jogo Counter Strike: Global Offensive foi escolhido como fonte de dados, que forneceu arquivos de partidas que foram tratados até a criação de tabelas em um data warehouse. Por fim, uma breve proposta de utilização dos dados é apresentada Abstract: This work focuses on presenting a data engineering solution to the problem of web data scraping in a systemic and orchestrated way, using a cloud-hosted infrastructure and declared as code, as well as a continuous integration pipeline and continuous deployment to smoothen the addition of new features and functions. In this way, a website with information from competitive matches of the game Counter Strike: Global Offensive was chosen as a source of data, which provided match-related files to be then processed to the creation of tables in a data warehouse. Finally, a brief proposal for the use of the data is presented
Collections
- Data Science & Big Data [124]