Aplicação de técnicas de aprendizado de máquina para a predição do índice de qualidade da água
Visualizar/ Abrir
Data
2024Autor
Nascimento, Mario Elias Carvalho do
Metadata
Mostrar registro completoResumo
Resumo: O monitoramento da qualidade da água é um tema relevante para a preservação da vida no planeta Terra. Uma das principais ferramentas empregadas nesse monitoramento é o Índice de Qualidade da Água (IQA), devido à sua fácil interpretação. No entanto, com o aumento da coleta de dados e, consequentemente, da complexidade dos sistemas, surge a necessidade de utilizar técnicas automatizadas e mais modernas. Este estudo teve como objetivo demonstrar a viabilidade técnica da aplicação de algoritmos de aprendizado de máquina para a predição e classificação multiclasse do IQA. Este trabalho de tese é constituído de dois artigos. No primeiro artigo, propôs-se a predição da classificação do IQA, utilizando 10 modelos clássicos de aprendizado de máquina: Análise Discriminante Linear (LDA), Análise Discriminante Quadrática (QDA), Regressão Logística (LR), Perceptron, Classificador Ridge (RC), Naive Bayes Gaussiano (GNB), K-vizinhos Mais Próximos (KNN), Máquina de Vetor de Suporte (SVM), Perceptron multicamadas (MLP) e Árvore de Decisão (DT), além de 5 conjuntos de modelos: AdaBoost (ADA), Bagging (BAG), Extra Trees (ET), Gradiente Boosting (GDB) e Floresta Aleatória (RF). No segundo artigo, propôs-se a predição do valor numérico do IQA, utilizando 6 algoritmos de aprendizado de máquina clássicos: K-vizinhos Mais Próximos (KNN), ElastiNetCV, Máquina de Vetor de Suporte Linear (LSVM), Máquina de Vetor de Suporte (SVM), Perceptron multicamadas (MLP) e Árvore de Decisão (DT); e, também, os 5 conjuntos de modelos anteriormente mencionados. Os modelos foram avaliados estatisticamente por meio das métricas de classificação, como: acurácia balanceada, precisão, revocação, f1 e matriz de confusão e pelas métricas de regressão, como: Erro Quadrático Médio (MSE), Raiz do Erro Quadrático Médio (RMSE) e Erro Médio Absoluto (MAE). Os algoritmos que apresentaram melhor desempenho tanto na classificação quanto na regressão foram: SVM, MLP, GDB e KNN. Além disso, foi demonstrada a possibilidade de redução do número de variáveis explicativas para os modelos de classificação e de regressão, passando de 9 variáveis (pH, oxigênio dissolvido, demanda bioquímica de oxigênio, nitrogênio total, fósforo total, coliformes fecais, sólidos totais, turbidez e temperatura) que compõem o IQA para apenas as 4 variáveis mais importantes (coliformes fecais, oxigênio dissolvido, demanda bioquímica de oxigênio e fósforo total). Para esta redução, foram utilizadas a técnica de importância relativa das variáveis na classificação e o coeficiente de Spearman na regressão. Por fim, observou-se que os algoritmos utilizados na regressão apresentaram valores de métricas ligeiramente melhores em comparação com os algoritmos de classificação. Abstract: Monitoring water quality is a relevant topic for sustaining life on planet Earth. One of the main tools used for this monitoring is the Water Quality Index (WQI), due to its easy interpretation. However, with the increase in data collection and consequently in the complexity of systems, there is a need for the use of automated and more modern techniques. This study aimed to demonstrate the technical feasibility of applying machine learning algorithms for the prediction and multiclass classification of the Water Quality Index (WQI). In the first article, the classification of WQI as a qualitative variable was proposed using 10 classic machine learning models, including Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), Logistic Regression (LR), Perceptron, Ridge Classifier (RC), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Multilayer Perceptron (MLP), and Decision Tree (DT), in addition to the 5 ensembles models: AdaBoost (ADA), Bagging (BAG), Extra Trees (ET), Gradient Boosting (GDB), and Random Forest (RF). In the second article, the prediction of the numerical value of the WQI was proposed using 11 machine learning algorithms, including 6 classic models: K-Nearest Neighbors (KNN), ElastiNetCV, Linear Support Vector Machine (LSVM), Support Vector Machine (SVM), Multilayer Perceptron (MLP), and Decision Tree (DT), as well as the 5 ensembles models mentioned earlier. The models were statistically evaluated using regression metrics such as Mean Squared Error (MSE), Root Mean Squared Error (RMSE), and Mean Absolute Error (MAE), as well as classification metrics including balanced accuracy, precision, recall, f1-score, and confusion matrix. The algorithms that showed the best performance in both prediction and classification were: SVM, MLP, GDB, and KNN. It was demonstrated that it is possible to reduce the number of explanatory variables for both tasks, going from the 9 variables (pH, dissolved oxygen, biochemical oxygen demand, total nitrogen, total phosphorus, fecal coliforms, total solids, turbidity, and temperature) that compose the WQI to only the 4 most important variables (fecal coliforms, dissolved oxygen, biochemical oxygen demand, and total phosphorus). For this reduction, techniques of relative importance of variables for classification and the Spearman coefficient for regression were used. Finally, it was observed that the regression technique presented slightly better metric values compared to the classification technique.
Collections
- Teses [8]