Teste Wald para avaliação de parâmetros de regressão e dispersão em modelos multivariados de covariância linear generalizada
Visualizar/ Abrir
Data
2022Autor
Freitas, Lineu Alberto Cavazani de
Metadata
Mostrar registro completoResumo
Resumo: Ciência de dados é um campo de estudo interdisciplinar que compreende áreas como estatística, ciência da computação e matemática. Neste contexto, métodos estatísticos são de fundamental importância sendo que, dentre as possíveis técnicas disponíveis para análise de dados, os modelos de regressão têm papel importante. Tais modelos são indicados a problemas nos quais existe interesse em verificar a associação entre uma ou mais variáveis respostas e um conjunto de variáveis explicativas. Isto é feito através da obtenção de uma equação que explique a relação entre as variáveis explicativas e a(s) resposta(s). Existem modelos uni e multivariados: nos modelos univariados há apenas uma variável resposta; já em modelos multivariados há mais de uma resposta. Dentre as classes de modelos multivariados estão os modelos multivariados de covariância linear generalizada (McGLMs). No contexto de modelos de regressão, é comum o interesse em avaliar os valores dos parâmetros por meio de testes de hipóteses e existem técnicas baseadas em tais testes, como as análises de variâncias univariadas, multivariadas e ainda os testes de comparações múltiplas. No entanto, considerando os McGLMs, não há discussão a respeito do uso destes testes para a classe. Nossa proposta é utilizar o teste Wald para a realização de testes de hipóteses gerais sobre parâmetros de regressão e dispersão de McGLMs. Por meio da avaliação dos parâmetros de regressão é possível identificar qual(is) variável(is) explicativa(s) apresentam efeito sobre a(s) resposta(s). Por meio do estudo dos parâmetros de dispersão pode-se avaliar o efeito da correlação entre unidades do estudo, como por exemplo em estudos longitudinais, temporais e de medidas repetidas. Apresentamos implementações em R de funções para efetuar tais testes, bem como funções para efetuar ANOVAs, MANOVAs e testes de comparações múltiplas. As propriedades e comportamento dos testes propostos foram verificados com base em estudos de simulação e o potencial de aplicação das metodologias discutidas foi motivado com base na aplicação a um conjunto de dados real. Os resultados mostraram que quanto mais distante a hipótese testada é dos valores verdadeiros dos parâmetros, maior é o percentual de rejeição da hipótese nula. Tal como esperado, os menores percentuais de rejeição foram observados quando a hipótese nula testada correspondia aos reais valores dos parâmetros. Também verificou-se que conforme aumenta-se o tamanho amostral, o percentual de rejeição aumenta para hipóteses nulas pouco diferentes dos valores simulados dos parâmetros. Logo, os resultados apontam que o teste Wald pode ser usado para avaliar hipóteses sobre parâmetros de regressão e dispersão de McGLMs, o que permite uma melhor interpretação do efeito das variáveis e estruturas de delineamento em contextos práticos. Abstract: Data science is an interdisciplinary field of study that comprises areas such as statistics, computer science and mathematics. In this context, statistical methods are of fundamental importance and, among the possible techniques available for data analysis, regression models play an important role. Such models are suitable for problems in which there is an interest in verifying the association between one or more response variables and a set of explanatory variables. This is done by obtaining an equation that explains the relationship between the explanatory variables and the response(s). There are univariate and multivariate models: in univariate models there is only one response variable; in multivariate models there is more than one response. Among the classes of multivariate models are the multivariate covariance generalized linear models (McGLMs). In the context of regression models, there is a common interest in evaluating parameter values through hypothesis tests and there are techniques based on such tests, such as univariate and multivariate analysis of variance and even multiple comparison tests. However, considering the McGLMs, there is no discussion regarding the use of these tests for the class. Our proposal is to use the Wald test to carry out tests of general hypotheses on regression and dispersion parameters of McGLMs. By evaluating the regression parameters, it is possible to identify which explanatory variable(s) have an effect on the response(s). Through the study of dispersion parameters, the effect of the correlation between study units can be evaluated, for example in longitudinal, temporal, and repeated measures studies. We present R implementations of functions to perform such tests, as well as functions to perform ANOVAs, MANOVAs and multiple comparison tests. The properties and behavior of the proposed tests were verified based on simulation studies and the potential of application of the discussed methodologies was motivated based on the application to a real dataset. The results showed that the further the tested hypothesis is from the true values of the parameters, the greater the percentage of rejection of the null hypothesis. As expected, the lowest rejection percentages were observed when the null hypothesis tested corresponded to the real values of the parameters. It was also verified that as the sample size increases, the rejection percentage increases for null hypotheses that are little different from the simulated values of the parameters. Therefore, the results indicate that the Wald test can be used to evaluate hypotheses about regression and dispersion parameters of McGLMs, which allows a better interpretation of the effect of variables and design structures in practical contexts.
Collections
- Dissertações [250]