Estudos de caso com aplicações de diferentes modelos de regressão para dados com resposta no intervalo unitário
Resumo
Resumo : Neste trabalho, foram analisadas duas bases de dados distintas: uma contendo dados de felicidade em diversos países e outra composta por dados sintéticos relacionados à satisfação de funcionários. Em ambas as bases, a variável resposta é contínua e restrita ao intervalo (0,1), o que justificou a utilização da abordagem GAMLSS (Generalized Additive Models for Location, Scale and Shape), combinada a modelos para respostas com essa característica. Esse método permite modelar não apenas o parâmetro de locação, mas também os parâmetros de escala e forma em função das covariáveis, proporcionando uma modelagem mais flexível. No desenvolvimento da análise, foi seguido um protocolo de modelagem que teve início com a comparação de diferentes distribuições candidatas: Beta, Beta Generalizada Tipo 1 (GB1), Beta Generalizada Tipo 2 (GB2), Logito-Normal e Simplex. Após a escolha da distribuição mais adequada, foram aplicados suavizadores nas covariáveis utilizadas na modelagem da média, visando capturar possíveis efeitos não lineares. Em seguida, realizou-se a avaliação da inclusão de variáveis nos demais parâmetros a fim de aprimorar o ajuste. A escolha final do modelo foi baseada no Critério de Informação de Akaike (AIC), enquanto a qualidade do ajuste foi avaliada por meio da análise dos resíduos e, principalmente, dos gráficos do tipo worm plot. A seleção de modelos em ambas as bases apontou a Beta Generalizada Tipo 1 (GB1) como a distribuição mais adequada. No entanto, cada base exigiu ajustes específicos na modelagem de seus parâmetros. No caso da base de felicidade, o modelo apresentou um desempenho significativamente mais satisfatório em termos de ajuste, enquanto a base sintética, possivelmente por suas características artificiais, resultou em um ajuste inferior e com maiores inadequações