Interpretação de modelo de previsão do número de homicídios no Brasil
Resumo
Resumo: Este estudo tem como objetivo analisar e prever o número de homicídios no Brasil utilizando modelos de aprendizado de máquina, além de interpretar os resultados através do framework SHAP(SHapley Additive exPlanations). Utilizamos dados sobre homicídios e indicadores socioeconômicos extraídos do Atlas da Violência, IPEA, IBGE e BancoMundial, abrangendo o período de 1992 a 2021. Inicialmente, realizamos uma análise descritiva dos dados, identificando padrões e tendências ao longo dos anos. Observamos um aumento significativo nos homicídios, com variações nas taxas de pobreza, desemprego, IDH médio, entre outros indicadores. Emseguida, aplicamos modelos de aprendizado de máquina, incluindo Random Forest, Support Vector Regression (SVR) e Gradient Boosting, para prever o número de homicídios. O Gradient Boosting apresentou o melhor desempenho, com menores valores de RMSE e MAE. Para interpretar os modelos, utilizamos o framework SHAP, que identificou a taxa de pobreza, taxa de suicídios, IDH médio e taxa de óbitos no transporte como os atributos mais importantes. Surpreendentemente, a análise revelou uma correlação negativa entre a taxa de pobreza e o número de homicídios, sugerindo a necessidade de uma análise mais aprofundada e multidisciplinar. Abstract: This study aims to analyze and predict the number of homicides in Brazil using machine learning models, and to interpret the results through the SHAP (SHapley Additive exPlanations)framework.We utilized data on homicides and socioeconomic indicators extracted from the Atlas of Violence, IPEA, IBGE, and theWorld Bank, covering the period from 1992 to 2021. Initially, we performed a descriptive analysis of the data, identifying patterns and trends over the years.We observed a significant increase in homicides, with variations in poverty rates, unemployment, average HDI, among other indicators. Subsequently,we applied machine learning models, including Random Forest, Support Vector Regression (SVR), and Gradient Boosting, to predict the number of homicides. Gradient Boosting showed the best performance, with lower RMSE and MAE values. To interpret the models, we used the SHAP framework, which identified poverty rate, suicide rate, average HDI, and transportation death rate as the most important attributes. Surprisingly, the analysis revealed a negative correlation between the poverty rate and the number of homicides, suggesting the need for a deeper and multidisciplinary analysis.
Collections
- Data Science & Big Data [138]