Estimativa do Redshift Fotométrico de Galáxias via modelos de machine learning: um estudo comparativo
Visualizar/ Abrir
Data
2024Autor
Santana, Tiago Vinícius Santos de
Metadata
Mostrar registro completoResumo
Resumo: Este trabalho teve como objetivo avaliar o desempenho de alguns modelos clássicos de regressão emum conjunto de dados simulados(altamente idealizados) de fotometria para umproblema de estimativa de redshift de galáxias. Os modelos de regressão linear, regressão polinomial, árvore de decisão, random forest, e support vector machine foram treinados e validados utilizando o método Stratified K-Fold, inicialmente em uma amostra de treinamento correspondente a 5% dos dados da base original. Em seguida, estes mesmos modelos foram avaliados na amostra de teste, correspondente aos 95% restantes da base, permitindo assim a avaliação da generalização dos modelos ajustados. Além disso, devido alto nível de correlação entre as variáveis, foi utilizado também a técnica da análise de componentes principais (PCA) para reduzir a dimensionalidade do sistema. Abstract: This study aimed to evaluate the performance of some classical regression models in a highly idealized photometry dataset for a galaxy redshift estimation problem. The linear regression, polynomial regression, decision tree, random forest, and support vector machine models were trained and validated using the Stratified K-Fold method, initially in a training sample corresponding to 5% of the original database. Then, these same models were evaluated in the test sample, corresponding to the remaining 95% of the database, thus allowing the generalization evaluation of the adjusted models. In addition, due to the high level of correlation between the variables, the principal component analysis (PCA) technique was also used to reduce the dimensionality of the system.
Collections
- Data Science & Big Data [124]