Multivariate generalized linear mixed models for count data
Visualizar/ Abrir
Data
2021Autor
Silva, Guilherme Parreira da, 1992-
Metadata
Mostrar registro completoResumo
Resumo: Pesquisadores estão frequentemente interessados em entender a relação entre um conjunto de covariáveis e um conjunto de variáveis respostas. Com o objetivo de prover tais respostas, o uso de analise de regressão linear ou um modelo linear generalizado é largamente utilizado. Entretanto, tais modelos permitem que o usuário especifique somente uma variável resposta por vez. Ainda, não é possível calcular diretamente a partir de um modelo de regressão tradicional a correlação entre as variáveis respostas. Nessa dissertação, aplica-se o modelo multivariado linear generalizado misto, que permite especificar um conjunto de variáveis respostas e calcular a correlação entre elas por meio da inclusão de um efeito aleatório que segue uma distribuição¸ao normal multivariada. Foi utilizado o framework de maxima verossimilhança para estimar os parametros do modelo utilizando aproximação de Laplace para integrar os efeitos aleatórios. As derivadas são calculadas através da diferenciação automática. A maximização externa é feita utilizando algoritmos de otimização, como por exemplo, PORT e BFGS. O escopo desse trabalho foi definido para trabalhar somente com variáveis respostas do tipo de contagem com as seguintes distribuições: Poisson, Binomial Negative (NB) e COM-Poisson. Enquanto a primeira distribuição pode modelar somente dado equidisperso, á segunda modela equi e superdisperso, e a terceira modela todos os tipos de dispersão. O modelo foi implementado no software R com o pacote TMB, baseado em C++. Com o objetivo de avaliar as propriedades dos estimadores foi conduzido um estudo de simulação considerando quatro diferentes tamanhos amostrais e três diferentes valores de correlação para cada distribuição. Estimadores consistentes e não viesados foram encontrados para as distribuições de Poisson e NB; para COM-Poisson, estimadores foram consistentes, mas viesados para os parametros de dispersão, variância e correlação, especialmente. Os modelos propostos tambem foram aplicados em três conjuntos de dados. O primeiro foi obtido por meio da pesquisa The National Health and Nutrition Examination Survey, que continha tres variâveis respostas subdispersas com 1281 participantes. O segundo foi coletado em 30 diferentes lugares da Australia e contabiliza á ocorrencia de 41 diferentes espécies de formiga. O terceiro foi obtido por meio da pesquisa Australia Health Survey, com 5 variaveis respostas e 5190 participantes. Os dois ultimos conjunto de dados podem ser considerados como superdispersos a partir do índice de dispersão generalizado. O modelo COM-Poisson superou os outros dois competidores atraves das medidas de qualidade de ajuste AIC, BIC e verossimilhança. Como consequencia, estimou parâmetros com menor erro padrão, e maior número de coeficiente de correlação significativos. Portanto, os modelos propostos foram capazes de lidar com múltiplas contagens e mensurar a correlação entre elas levando em consideração os efeitos das covariáveis. Abstract: Researchers are often interested in understand the relationship between a set of covariates and a set of response variables. In order to achieve this goal, the use of regression analysis, either linear or generalized linear models, is largely applied. However, such models only allow users to model one response variable at a time. Moreover, it is not possible to directly calculate from the regression model a correlation measure between the response variables. In this master thesis, we employed the Multivariate Generalized Linear Mixed Models framework, which allows the specification of a set of response variables and to calculate the correlation between them by means of a random effect structure that follows a multivariate normal distribution. We used the maximum likelihood estimation framework to estimate all parameters using Laplace approximation to integrate out the random effects. The derivatives are provided by automatic differentiation. The outer maximization is made using a general purpose algorithm such as PORT and BFGS. We delimited this problem studying only count response variables with the following distributions: Poisson, negative binomial (NB) and COM-Poisson. While the first distribution can model only equidispersed data, the second models equi and overdispersed, and the third models all types of dispersion. The models were implemented on software R with package TMB, based on C++ templates. In order to assess the estimator properties we conducted a simulation study considering four different sample sizes and three different correlation values for each distribution. Unbiased and consistent estimators were found for Poisson and NB distributions; for COM-Poisson, estimators were consistent, but they were biased for dispersion, variance and correlation parameter estimators specially. These models were applied on three datasets. The first one is from the The National Health and Nutrition Examination Survey, where three underdispersed response variables were measured at 1281 participants. The second is from 30 different sites in Australia where the number of 41 different ant species were registered. The third is from the Australia Health Survey with 5 response variables and 5190 respondents. The last two datasets can be considered as overdispersed by the generalized dispersion index. The COM-Poisson model overcame the other two competitors considering three goodness-of-fit indexes, AIC, BIC and likelihood. As a consequence, it estimated parameters with smaller standard error, and a greater number of significant correlation coefficients. Therefore, the proposed model is capable of dealing with multivariate count response and to measure the correlation between them taken into account the covariates effects.
Collections
- Dissertações [190]