Análise da incompletude na inferência estatística : uma aplicação em dados clínicos

Carvalho, Melissa Mello de

dc.contributor.advisor	Picheth, Geraldo, 1955-	pt_BR
dc.contributor.other	Costa, Paulo Afonso Bracarense, 1957-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática	pt_BR
dc.creator	Carvalho, Melissa Mello de	pt_BR
dc.date.accessioned	2023-02-07T23:43:34Z
dc.date.available	2023-02-07T23:43:34Z
dc.date.issued	2017	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/69481
dc.description	Orientador : Prof. Dr. Geraldo Picheth	pt_BR
dc.description	Coorientador : Prof. Dr. Paulo Afonso Bracarense da Costa	pt_BR
dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa: Curitiba, 10/03/2017	pt_BR
dc.description	Inclui referências : p. 59-65	pt_BR
dc.description.abstract	Resumo: Lacunas são comuns a pesquisa empírica, em especial na área da saúde, onde a falta de dados é muitas vezes um fator inevitável devido à logística da captação de informações. Essa incompletude é danosa à análise de dados, tal como em um modelo de decisão ou de triagem clínica, pois a inferência estatística é afetada por incertezas da falta de conhecimento. As lacunas são empecilhos às análises paramétricas e a alguns softwares estatísticos. Assim, grande parte dos pesquisadores aplicam métodos de seleção, exclusão e imputação de informações faltantes. Entretanto, a prática de imputação pode não ser trivial, especialmente na presença atributos multivariados: a dificuldade de estimar valores adequados pode adicionar vieses e incertezas não desejáveis à análise de características e à decisão. Os dados analisados são provenientes do banco de dados do biorrepositório do laboratório de Bioquímica Clínica I e II da Universidade Federal do Paraná, sem incompletudes e em observação transversal em um modelo de decisão diagnóstico e de acompanhamento do Diabetes mellitus do tipo 2 (DM2). Todas as variáveis disponíveis à decisão têm apresentação multivariada. Para a discussão sobre os impactos e consequências da falta de dados são criadas, a partir da população, amostras com porcentagens de lacunas obtidas de maneira totalmente randômica (MCAR). A incompletude e suas incertezas são exploradas sem a imputação dos valores faltantes e os resultados comparados aos dados completos. A discussão de incertezas, vieses e distorções ocasionados pela incompletude e pelo método de análise caso completo são embasadas na aplicação da correlação ? de Kendall no software R, e análises classificatórias e preditivas com algoritmos de redes neuronais artificiais e algoritmos fuzzy rough do software WEKA. O ? de Kendall demonstrou ser um método de correlação robusto à análise de informações com incompletudes. As amostras com incompletudes não imputadas apresentaram poder de correlação com baixa variabilidade em relação à população do estudo e eficiente discernibilidade de características. Na classificação, o algoritmo fuzzy rough Discernibility Classifier demonstrou que a discernibilidade aliada ao método fuzzy rough é útil na classificação do modelo de decisão estudado, a alta cobertura de dados classificados demonstra sua capacidade em relação à incompletude de dados e à incerteza. Palavras-chave: Dados faltantes, Correlação ? de Kendall, Conjuntos rugosos fuzzy, Classificadores, Redes neuronais artificiais, Diabetes.	pt_BR
dc.description.abstract	Abstract: Gaps are common to empirical research, especially in the area of health, where lack of data is often an unavoidable factor due to the information gathering logistics. This incompleteness is damaging to data analysis, such as in a decision model or clinical screening, as statistical inference is affected by lack of knowledge uncertainties. The gaps are a hindrance to parametric analysis and some statistical software. Thus, most researchers apply selection, exclusion and imputation of missing information methods. However, the imputation practice may not be trivial, especially in the presence of multivariate attributes: the difficulty of estimating adequate values may add biases and undesirable uncertainties to the analysis of characteristics and decision. The analyzed data hails from the biorepository database of the Clinical Biochemistry I and II laboratory of the Federal University of Paraná, without incompleteness and cross-sectional observation in a model for the diagnosis and follow-up of Diabetes mellitus type 2 (DM2). All variables available to the decision have a multivariate presentation. For the discussion of the impacts and consequences of the lack of data, samples with percentages of gaps obtained in a totally random manner (MCAR) are created from the population. The incompleteness and its uncertainties are explored without imputation of the missing values and the results compared to the complete data. The discussion of uncertainties, biases and distortions caused by incompleteness and by the complete case analysis method is based on the application of ?-Kendall correlation in the R software, and classificatory and predictive analysis with algorithms of artificial neural networks and fuzzy rough algorithms of the WEKA software. Kendall's ? has been shown to be a robust method of correlation to incomplete information analysis. Samples with uncorrected incompleteness showed low variability correlation power in relation to the population of study and efficient characteristics discernibility. In the classification, the Fuzzy Rough Discernibility Classifier algorithm demonstrated that the discernibility allied to the fuzzy rough method is useful in the classification of the decision model studied. The high coverage of classified data demonstrates its capacity in relation to data incompleteness and uncertainty. Key-words: Missing data, Correlation ? de Kendall, Fuzzy rough sets, Classifiers, Artificial neural networks, Diabetes.	pt_BR
dc.format.extent	149 f. : il., tabs.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.relation	Disponível em formato digital	pt_BR
dc.subject	Bioinformática	pt_BR
dc.subject	Exames laboratoriais	pt_BR
dc.subject	Diabetes	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.title	Análise da incompletude na inferência estatística : uma aplicação em dados clínicos	pt_BR
dc.type	Dissertação	pt_BR

Arquivos deste item

Nome:: R - D - MELISSA MELLO DE CARVA ...
Tamanho:: 2.096Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Dissertações [69]

Mostrar registro simples