Predição de internações a partir de dados de planos de saúde por métodos de aprendizagem supervisionada
Abstract
Resumo: As internações hospitalares constituem uma parte significativa dos gastos do sistema de saúde. Além de encarecer o sistema, em vários casos, essas internações podem significar um aumento na complexidade das condições de saúde dos pacientes, refletindo a gravidade de seus problemas médicos e suas implicações para a saúde. Portanto, a prevenção de internações não é apenas uma estratégia de redução de custos, mas também uma medida crucial para promover a qualidade de vida dos pacientes. Neste contexto, a previsão de internações surge como uma solução viável, possibilitando aos gestores otimizar a aplicação de recursos e que as iniciativas médicas promovam intervenções preventivas. Ademais, a análise preditiva pode enriquecer a literatura médica para diversos tipos de problemas de saúde, revelando, por exemplo, fatores que podem contribuir para complicações de doenças. A realização da previsão de internações exige a utilização de dados com características preditivas adequadas. Contudo, a obtenção desses dados não é uma tarefa trivial, tanto em relação ao acesso quanto à seleção das características a serem utilizadas nos treinamentos, demandando conhecimento especializado. Visando eliminar essa necessidade, esta pesquisa propõe uma estratégia de representação de dados de planos de saúde baseada em sentenças, facilitando sua utilização em treinamentos de algoritmos de aprendizado de máquina. Este trabalho também apresenta uma abordagem para a geração de um modelo de previsão de internações utilizando essas sentenças, com o objetivo de prever tanto internações gerais quanto para casos específicos, como casos de internações por AVC (Acidente Vascular Cerebral). As abordagens apresentadas abrangem desde técnicas tradicionais de aprendizado de máquina, como Random Forest e Gradient Boosting, até os mais recentes modelos de linguagem, como BERT e LLaMA. Os resultados experimentais obtidos demonstram a viabilidade dessa proposta, apresentando resultados que superam diversos trabalhos da literatura. Para internações em geral, foram alcançados F1-Score = 87,8 e AUC = 0,955, enquanto para internações por AVC, o melhor modelo atingiu F1-Score = 88,7 e AUC = 0,964. Além disso, os modelos gerados neste estudo possibilitam aplicações em várias outras áreas da saúde Abstract: Hospitalizations constitute a significant part of health system expenditures. In addition to increasing costs, these hospitalizations can often indicate a rise in the complexity of patients’ health conditions, reflecting the severity of their medical issues and their implications for health. Therefore, preventing hospitalizations is not just a cost-reduction strategy but also a crucial measure to enhance patients’ quality of life. In this context, predicting hospitalizations emerges as a viable solution, allowing managers to optimize resource allocation and enabling medical initiatives to promote preventive interventions. Moreover, predictive analysis can enrich the medical literature for various health issues, revealing factors that may contribute to disease complications. Conducting hospitalization predictions requires the use of data with suitable predictive characteristics. However, obtaining this data is not a trivial task, both in terms of access and the selection of features for training, necessitating specialized knowledge. To eliminate this need, this research proposes a data representation strategy for health plans based on sentences, facilitating their use in training machine learning algorithms. This work also presents an approach for generating a hospitalization prediction model using these sentences, aimed at forecasting both general hospitalizations and specific cases, such as hospitalizations due to stroke. The approaches discussed range from traditional machine learning techniques, like Random Forest and Gradient Boosting, to the latest language models, such as BERT and LLaMA. The experimental results obtained demonstrate the viability of this proposal, showing results that surpass several studies in the literature. For hospitalizations in general, F1-Score = 87.8 and AUC = 0.955 were achieved, while for stroke-related hospitalizations, the best model achieved F1-Score = 88.7 and AUC = 0.964. Additionally, the models generated in this study enable applications in various other areas of health
Collections
- Teses [132]