Modelo de regressão quase-beta multivariado
Resumo
Resumo: Em diversas áreas de pesquisa 'e frequente a análise de dados com variareis respostas limitadas ao intervalo unitário. Tais variareis geralmente se apresentam na forma de taxas, proporções, indíces e porcentagens, sendo portanto limitadas ao intervalo (0,1). Para o caso de múltiplas respostas 'e comum analisar cada variável resposta separadamente, o que não permite investigar possíveis correlações entre elas. Nesse sentido, o presente trabalho propõe um novo modelo de regressão para análise de variáveis respostas limitadas multivariada. O modelo é especificado usando apenas suposições de primeiro e segundo momentos. A abordagem usada para estimação dos parâmetros combina as funções de estimação quase-escore e Pearson para estimação dos parâmetros de regressão e dispersão, respectivamente. A principal vantagem da abordagem proposta é não precisar assumir uma distribuição de probabilidade multivariada para o vetor de variáveis respostas. O algoritmo de estimação é de fácil implementação, podendo ser resumido a um simples e eficiente algoritmo do tipo Newton-score. Alám disso, o modelo proposto permite acomodar facilmente dados no intervalo [0,1], incluindo excesso de zeros e uns. No decorrer do trabalho foram delineados três estudos de simulação. O primeiro foi conduzido para investigar o comportamento do algoritmo NORTA (NORmal To Anything) na simulação de variáveis aleatórias beta correlacionadas. O segundo visou explorar a flexibilidade dos estimadores para lidar com dados limitados em estudos longitudinais. E o terceiro foi delineado para checar propriedades dos estimadores como viés, consistência e taxa de cobertura em estudos com múltiplas respostas correlacionadas. O modelo foi motivado por dois conjuntos de dados que não são facilmente manipulados pelos métodos estatísticos convencionais. O primeiro se refere ao índice de qualidade da água de reservatórios de usinas hidrelétricas operadas pela COPEL no Estado do Paraná. E o segundo corresponde ao percentual de gordura corporal, que foi medido em cinco regiões do corpo e representam as variáveis respostas. Além disso, foram adaptadas técnicas de diagnóstico para o modelo proposto, tais como DFFITS, DFBETAS, distância de Cook e o gráfico de probabilidade meio-normal com envelope simulado, para detecção de pontos influentes e outliers. Portanto, as principais contribuições do modelo de regressão proposto nesta dissertação estão na análise de dados limitados em estudos longitudinais, além da análise de dados limitados em estudos com múltiplas respostas correlacionadas. Abstract: In several areas of research it is common to analyze data with response variables limited to the unit interval. These variables usually appear in the form of rates, proportions, index and percentages, being therefore limited to the interval (0,1). When the response variable is multivariate, in general, each response variable is analyzed separately, which does not allow investigating possible correlations between them. Thus, we propose a multivariate regression model to deal with multiple continuous bounded data. The model is specified using only first and second moment assumptions and the method for estimation and inference combines the quasi-score and Pearson estimating functions for the estimation of the regression and dispersion parameters, respectively. The main advantage of the proposed approach is that it does not need to assume a multivariate probability distribution for the response vector. The fitting procedure is easily implemented using a simple and efficient Newton scoring algorithm. Furthermore, the proposed model can easily handle data in the unit interval, including exact zeros and ones. During the work, we conducted three simulation studies. The first one evaluated the behavior of the NORTA algorithm (NORmal To Anything) in the simulation of correlated beta random variables. The second aimed to explore the flexibility of estimators to deal with continuous bounded data in longitudinal studies. And the third was designed to check properties of the estimators, such as bias, consistency, and coverage rate in studies with multiple correlated response variables. The model was motivated by two data sets that are not easily manipulated by existing statistical methods. The first refers to the water quality index measured on power plant reservoirs operated by COPEL in the State of Paran'a, Brazil. The second corresponds to the percentage of body fat, which was measured at five regions of the body and represent the response variables.We adapted diagnostic techniques for the proposed model, such as DFFITS, DFBETAS, Cook's distance and half-normal plot with simulated envelope, to check influential points and outliers. Therefore, the proposed model in this work allows the analysis of continuous bounded data in longitudinal studies, in addition to the analysis of continuous bounded data in studies with multiple correlated response variables.
Collections
- Dissertações [119]