Imputação de dados no modelo de riscos proporcionais de COX
Resumo
Resumo: A imputação múltipla (RUBIN, 1987) é essencial em análises estatísticas quando ocorrem dados ausentes. No modelo de taxas de falhas proporcionais (COX, 1972), contudo, métodos convencionais de imputação são inadequados. Conduzimos um estudo de simulação comparando quatro abordagens de imputação múltipla para duas variáveis explicativas parcialmente observadas, considerando que a perda de dados está relacionada ao tempo de sobrevivência. Avaliamos os modelos convencionais de imputação, regressão linear (NORM) para dados contínuos e para dados binários o modelo de regressão linear logística (LOG). Para acomodar as características do modelo de taxas de falhas proporcionais optamos por uma abordagem baseada na função taxa de falha acumulada em uma aproximação do modelo de imputação proposto por White e Royston (2009) (NA), um método compatível com o modelo de análise proposto por Bartlett et al. (2015) (CONG) e o método CART, conhecido por lidar bem com não linearidades e interações. Para variáveis contínuas, o método NORM e o NA apresentaram maior viés do que o modelo de caso completo (CC). Os métodos NORM, CART e NA resultaram em baixas taxas de cobertura. No cenário das variáveis binárias, as taxas de cobertura para os métodos LOG, CART e NA aumentaram em comparação com as variáveis contínuas. Neste cenário, o método CART teve menor erro padrão, resultando em taxas de cobertura abaixo do nível nominal. Em ambos os cenários, o modelo de imputação CONG ofereceu estimativas razoáveis em comparação com os demais métodos, apresentando menor viés e taxas de cobertura alinhadas aos valores nominais. Na aplicação prática dos métodos ao conjunto de dados de pacientes com Doença de Chagas do HC-UFMG, reforçou-se a importância de uma escolha cuidadosa da técnica de imputação múltipla para garantir a robustez das inferências em estudos de sobrevivência com dados ausentes. Dessa forma, a pesquisa contribui para o avanço na utilização de técnicas de imputação múltipla em modelos de sobrevivência, apontando o método CONG como uma alternativa viável e eficiente em contextos práticos Abstract: Multiple imputation (RUBIN, 1987) is a fundamental technique in statistical analyses addressing missing data. However, conventional imputation methods may be insufficient in the context of the Cox proportional hazards model (COX, 1972). This study presents a simulation that compares four multiple imputation approaches for two partially observed covariates, focusing on the scenario where the missing data mechanism is associated with survival time. We evaluated traditional imputation models, specifically linear regression (NORM) for continuous variables and logistic regression (LOG) for binary variables. To align with the characteristics of the Cox model, we employed an approach based on the cumulative hazard function, as proposed by White e Royston (2009) (NA), in addition to a method compatible with the analysis framework outlined by Bartlett et al. (2015) (CONG) and the CART method, which is known for its capacity to handle non-linearities and interactions effectively. For continuous variables, the NORM and NA methods exhibited greater bias compared to the complete case (CC) model, while the NORM, CART, and NA methods demonstrated low coverage rates. In the binary variables scenario, the coverage rates for the LOG, CART, and NA methods improved relative to the continuous variables, with the CART method showing the lowest standard error, leading to coverage rates that fell below the nominal level. Across both scenarios, the CONG imputation model provided reasonable estimates, with lower bias and coverage rates that aligned closely with nominal values. In the practical application of these methods to a dataset of Chagas disease patients from HC-UFMG, the findings emphasize the importance of selecting appropriate multiple imputation techniques to ensure the robustness of inferences in survival studies with missing data. Thus, this research contributes to advancing the use of multiple imputation techniques in survival models, highlighting the CONG method as a viable and efficient alternative in practical applications
Collections
- Dissertações [102]