Análise da incompletude na inferência estatística : uma aplicação em dados clínicos
Resumo
Resumo: Lacunas são comuns a pesquisa empírica, em especial na área da saúde, onde a falta de dados é muitas vezes um fator inevitável devido à logística da captação de informações. Essa incompletude é danosa à análise de dados, tal como em um modelo de decisão ou de triagem clínica, pois a inferência estatística é afetada por incertezas da falta de conhecimento. As lacunas são empecilhos às análises paramétricas e a alguns softwares estatísticos. Assim, grande parte dos pesquisadores aplicam métodos de seleção, exclusão e imputação de informações faltantes. Entretanto, a prática de imputação pode não ser trivial, especialmente na presença atributos multivariados: a dificuldade de estimar valores adequados pode adicionar vieses e incertezas não desejáveis à análise de características e à decisão. Os dados analisados são provenientes do banco de dados do biorrepositório do laboratório de Bioquímica Clínica I e II da Universidade Federal do Paraná, sem incompletudes e em observação transversal em um modelo de decisão diagnóstico e de acompanhamento do Diabetes mellitus do tipo 2 (DM2). Todas as variáveis disponíveis à decisão têm apresentação multivariada. Para a discussão sobre os impactos e consequências da falta de dados são criadas, a partir da população, amostras com porcentagens de lacunas obtidas de maneira totalmente randômica (MCAR). A incompletude e suas incertezas são exploradas sem a imputação dos valores faltantes e os resultados comparados aos dados completos. A discussão de incertezas, vieses e distorções ocasionados pela incompletude e pelo método de análise caso completo são embasadas na aplicação da correlação ? de Kendall no software R, e análises classificatórias e preditivas com algoritmos de redes neuronais artificiais e algoritmos fuzzy rough do software WEKA. O ? de Kendall demonstrou ser um método de correlação robusto à análise de informações com incompletudes. As amostras com incompletudes não imputadas apresentaram poder de correlação com baixa variabilidade em relação à população do estudo e eficiente discernibilidade de características. Na classificação, o algoritmo fuzzy rough Discernibility Classifier demonstrou que a discernibilidade aliada ao método fuzzy rough é útil na classificação do modelo de decisão estudado, a alta cobertura de dados classificados demonstra sua capacidade em relação à incompletude de dados e à incerteza. Palavras-chave: Dados faltantes, Correlação ? de Kendall, Conjuntos rugosos fuzzy, Classificadores, Redes neuronais artificiais, Diabetes. Abstract: Gaps are common to empirical research, especially in the area of health, where lack of data is often an unavoidable factor due to the information gathering logistics. This incompleteness is damaging to data analysis, such as in a decision model or clinical screening, as statistical inference is affected by lack of knowledge uncertainties. The gaps are a hindrance to parametric analysis and some statistical software. Thus, most researchers apply selection, exclusion and imputation of missing information methods. However, the imputation practice may not be trivial, especially in the presence of multivariate attributes: the difficulty of estimating adequate values may add biases and undesirable uncertainties to the analysis of characteristics and decision. The analyzed data hails from the biorepository database of the Clinical Biochemistry I and II laboratory of the Federal University of Paraná, without incompleteness and cross-sectional observation in a model for the diagnosis and follow-up of Diabetes mellitus type 2 (DM2). All variables available to the decision have a multivariate presentation. For the discussion of the impacts and consequences of the lack of data, samples with percentages of gaps obtained in a totally random manner (MCAR) are created from the population. The incompleteness and its uncertainties are explored without imputation of the missing values and the results compared to the complete data. The discussion of uncertainties, biases and distortions caused by incompleteness and by the complete case analysis method is based on the application of ?-Kendall correlation in the R software, and classificatory and predictive analysis with algorithms of artificial neural networks and fuzzy rough algorithms of the WEKA software. Kendall's ? has been shown to be a robust method of correlation to incomplete information analysis. Samples with uncorrected incompleteness showed low variability correlation power in relation to the population of study and efficient characteristics discernibility. In the classification, the Fuzzy Rough Discernibility Classifier algorithm demonstrated that the discernibility allied to the fuzzy rough method is useful in the classification of the decision model studied. The high coverage of classified data demonstrates its capacity in relation to data incompleteness and uncertainty. Key-words: Missing data, Correlation ? de Kendall, Fuzzy rough sets, Classifiers, Artificial neural networks, Diabetes.
Collections
- Dissertações [67]