Modelos preditivos para Doença Cardiovacular
Resumo
Resumo: Este estudo foi realizado com o intuito de auxiliar a identificação antecipada de pessoas que tenham tendências de contrair doença cardiovascular.A base de dados utilizada neste estudo, é uma base pública disponível no kaggle, ela possui 918 registros com 11 variáveis explicativas e 1 variável resposta. A primeira parte do processo, foi efetuar uma análise exploratória das variáveis e identificar quais possuem maior influência na causa de doenças cardiovasculares, e quais variáveis podiam ajudar a prever quais pacientes podem desenvolver doença cardiovascular, além de identificar quais são os principais causadores deste tipo de doença. A segunda parte do processo, para responder os fatores da pesquisa, foram utilizadas as metodologias, modelo logístico, arvore de decisão e random forest, estas metodologias foram escolhidas por possuírem características de modelos binários, ou seja, modelos de classificação. A terceira parte do processo, foi utilizada para testar a acurácia das técnicas aplicadas, os modelos são capazes de realizar a predição da doença, conforme as características do conjunto de dados. Todos os testes resultaram em uma excelente assertividade, o modelo logístico obteve a melhor performance, atingiu aproximadamente 87%, por se tratar de um modelo mais simples e a melhor acurácia, o modelo logístico foi o escolhido para auxiliar na predição deste tipo de doença. Abstract: This study was carried out with the aim of helping the early identification of people who have a tendency to contract heart disease. The database used in this study is a public database available on kaggle, there are 918 records with 11 explanatory variables and 1 response variable. The first part of the process was to carry out an exploratory analysis of the variables and identify which ones have the greatest influence on the cause of heart disease, and which variables could help predict which patients may develop heart disease, in addition to identifying which are the main causes of this type of disease. The second part of the process, to answer the research factors, were used the methodologies, logistic model, decision tree and random forest, these methodologies were chosen because they have characteristics of classification models. The third part of the process was used to test the accuracy of the applied techniques, the models are able to predict the disease, according to the characteristics of the data set. All tests resulted in excellent assertiveness, the logistic model obtained the best performance, reaching approximately 87%, because it is a simpler model and the best accuracy, the logistic model was chosen to assist in the prediction of this type of disease.
Collections
- Data Science & Big Data [124]