Uma abordagem de ponto fixo para regressão Ridge, Lasso e Elastic Net em dados de alta dimensionalidade
Resumo
Resumo: Em problemas de regressão linear múltipla, quando o número de características é muito maior que o número de observações, tem-se dados de alta dimensão, sendo um tipo de problema relevante dado que é comum em dados genômicos, análise de imagens, finanças e biologia molecular. Dados de alta dimensão podem ser afetados pela multicolinearidade, que ocorre quando duas ou mais variáveis independentes estão correlacionadas, e esse fenômeno pode levar a inferências não confiáveis. Uma abordagem de regularização, como regressão ridge, lasso ou elastic net, pode ser usada neste caso. Este trabalho apresenta um novo algoritmo baseado em ponto fixo para resolver o problema de regressão ridge. O algoritmo é baseado em reescrever a condição de otimização necessária de primeira ordem como uma iteração de ponto fixo e é um algoritmo de fácil implementação. Experimentos numéricos foram executados em problemas mal condicionados e de alta dimensão a fim de avaliar sua viabilidade. O algoritmo proposto foi também aplicado na solução das técnicas de lasso ou elastic net, nesse caso sendo utilizado para solução do subproblema do método de direções alternadas dos multiplicadores. Além disso, o algoritmo proposto foi utilizado na solução do problema de dados genômicos reais de alta dimensão sobre a produção de riboflavina (vitamina B2) com Bacillus subtilis para fins ilustrativos. Os resultados mostram que o algoritmo proposto é competitivo em tempo de execução quando comparado ao método do gradiente conjugado, à rotina mldivide do MATLAB® e ao método do resíduo mínimo Abstract: In multiple linear regression, the challenge of high-dimensional data arises when the number of features far exceeds the number of observations. This issue is encountered across various fields, including genomics, image analysis, finance, and molecular biology. High-dimensional datasets often suffer from multicollinearity, where correlated independent variables lead to unreliable inferences. A regularization approach, such as ridge regression, lasso, or elastic net, can be used in this case. This work presents a new fixed-point-based algorithm to solve the ridge regression problem. The algorithm rewrites the necessary first-order optimization condition as a fixed-point iteration and is straightforward to implement. Numerical experiments were conducted on ill-conditioned and high-dimensional problems to evaluate its feasibility. The proposed algorithm was also applied to solve lasso or elastic net problems, in which case it was used to solve the subproblem of the alternating directions method of multipliers. Additionally, the proposed algorithm was applied to solve a high- dimensional real genomic data problem regarding riboflavin (vitamin B2) production with Bacillus subtilis for illustrative purposes. The results show that the proposed algorithm is competitive in terms of execution time when compared to the conjugate gradient method, MATLAB®mldivide routine, and the minimum residual method
Collections
- Teses [104]