Análise preditiva de desfechos de saúde usando machine learning
Resumo
Resumo: A crescente disponibilidade de dados de saúde eletrônicos apresenta uma grande oportunidade tanto em termos de descoberta como de aplicações práticas para melhorar os cuidados nesta área. A previsão precoce e o diagnóstico de doenças a partir de dados médicos são uma das aplicações mais interessantes do Machine Learning. Este trabalho busca identificar se dados de faturamento poderão ser utilizados para o desenvolvimento de ferramentas que ajudem a identificar padrões que sinalizem a possibilidade de desfechos desfavoráveis em pacientes hipertensos com risco de evolução para Infarto Agudo do Miocárdio e gestantes para parto prematuro precocemente. Por se tratar de um problema de classificação, o resultado é um valor binário, e foram escolhidos cinco algoritmos de Machine Learning, Random Forest, AdaBoosting, Regressão Logística e Naïve Bayes. O modelo de Random Forest para IAM apresentou uma precisão de 96%, que pode ser considerada muito elevada. Porém, os modelos aplicados aos partos prematuros não chegaram à precisão superior à 68%, com valores significativos de falsos positivos e negativos. A partir dos resultados obtidos, pudemos perceber que, com os dados clínicos coletados pelo programa de saúde a acurácia do algoritmo desenvolvido é muito maior que utilizando apenas os dados de faturamento usados no algoritmo da prematuridade sugeridos inicialmente Abstract: The growing availability of electronic health data presents a great opportunity both in terms of discovery and practical applications to improve care in this area. Early prediction and diagnosis of diseases from medical data is one of the most interesting applications of ML. This work seeks to identify whether billing data can be used to develop tools that help identify patterns that signal the possibility of unfavorable outcomes in hypertensive patients at risk of developing an acute myocardial infarction and pregnant women who give birth prematurely. As this is a classification problem, the result is a binary value, and five Machine Learning algorithms were chosen: Random Forest, AdaBoosting, Logistic Regression and Naïve Bayes. The Random Forest model for IAM showed an accuracy of 96%, which can be considered very high. However, the models applied to premature births were no more accurate than 68%, with significant false positives and negatives. From the results obtained, we can see that, with the clinical data collected by the health program, the accuracy of the algorithm developed is much higher than using only the billing data used in the prematurity algorithm suggested initially
Collections
- Dissertações [94]