Predição espacial da qualidade do ar em Curitiba usando Regressão Linear Múltipla e Random Forest
Resumo
Resumo : O aumento da poluição nas cidades trouxe um interesse por parte dos pesquisadores para conseguir mensurar as concentrações dos poluentes e prever seus valores do futuro. Neste trabalho foi colocado em pauta como diferentes modelos de predição se comportam e como eles conseguem prever valores de concentrações de PM2.5 em Curitiba. Os modelos analisados foram os modelos de Regressão Linear Múltipla e o Modelo de Random Forest, um modelo que se utiliza de uma regressão não linear. Para conseguir analisar a qualidade das previsões foram definidas diferentes métricas que serviram como parâmetros de comparação entre os modelos. As métricas foram o Erro Quadrático Médio (MSE), a Raiz do Erro Quadrático Médio (RMSE), o Coeficiente de Determinação (R²) e um critério de comparação chamado de Fator de 2. A base de dados de interesse foi definida com 4 estações instaladas nos bairros de Boa Vista, Jardim das Américas, Mercês e Orleans. Com tudo definido, os modelos foram alimentados com o mesmo conjunto de dados e todas as métricas obtidas foram salvas. Além disto, cada modelo também teve gerados os gráficos de dispersão entre os valores previsto e medidos para todas as estações. Com todos os dados separados, foi possível observar tanto com as métricas estatísticas quanto com a representação visual dos gráficos de dispersão que o modelo de Regressão Linear obteve os maiores valores de MSE e RMSE e menores de R² enquanto o modelo de Random Forest obteve a melhor predição, com resultados de MSE e RMSE se aproximando de zero e com o valores de R² próximos de 1 Abstract : The increase in air pollution within cities has brought an interest on researchers. They started to measure the concentrations of pollutants and wanted to predict their future values. This article intends to analyze how different forecasting models behave and how they manage to predict concentration values of PM2.5 in Curitiba. The analyzed models were the Multiple Linear Regression Model and the Random Forest Model, a model that uses a non-linear regression. In order to be able to analyze the quality of the prediction, different parameters were defined that served as comparison tools for each model. The parameters were the Mean Squared Error (MSE), the Root Mean Squared Error (RMSE), the Coefficient of Determination (R²) and a comparison criterion called Factor of Two. The database was defined as the 4 stations of Boa Vista, Jardim das Américas, Mercês and Orleans. With everything set, the models were train with the same dataset and all parameters measured were saved. In addition, each model also generated a scatter plots between predicted and measured values for each station. With all this data set, it was possible to observe that both the statistical metrics and the visual representation of the scatter plots shown that: the Linear Regression model was the worst model, having the highest values of MSE and RMSE and the lowest of R² and the Random Forest model obtained the best prediction, with MSE and RMSE results approaching 0 and with a value of R² close to 1.
Collections
- Engenharia Ambiental [187]