Memorial de projetos : análise de redes generativas adversariais aplicadas à super-resolução de imagens com base no modelo srgan
Resumo
Resumo: Este trabalho apresenta o SRGAN (Super-Resolution Generative Adversarial Network), o primeiro modelo capaz de gerar imagens super-resolvidas com aparência fotorrealista a partir de uma única imagem de baixa resolução. Métodos tradicionais de super-resolução baseados na minimização do erro quadrático médio (MSE) produzem resultados com altos valores de PSNR (Peak Signal-to-Noise Ratio), no entanto visualmente suaves e pouco naturais. O SRGAN propõe uma função de perda perceptual que combina uma perda de conteúdo, calculada sobre mapas de características extraídos da rede VGG (Visual Geometry Group), e uma perda adversarial, obtida por meio de um discriminador treinado para distinguir imagens reais de geradas. Essa abordagem incentiva o gerador a produzir imagens mais próximas das imagens naturais, preservando o conteúdo e recuperando texturas realistas. Os experimentos em conjuntos de dados públicos (Set5, Set14 e BSD100) demonstram que o SRGAN supera significativamente os métodos anteriores em qualidade perceptual, de acordo com testes de opinião humana (MOS), mesmo apresentando valores de PSNR inferiores. O estudo evidencia que métricas tradicionais não refletem a percepção visual humana e que a integração de redes adversariais com perdas perceptuais representa um avanço importante na geração de imagens de alta resolução realistas Abstract: This paper introduces SRGAN (Super-Resolution Generative Adversarial Network), the first framework capable of generating photo-realistic high-resolution images from a single low-resolution input. Traditional super-resolution methods based on minimizing mean squared error (MSE) achieve high PSNR (Peak Signal-to-Noise Ratio) values but produce overly smooth and unrealistic results. SRGAN employs a perceptual loss function that combines a content loss, computed on feature maps extracted from a VGG (Visual Geometry Group) network, with an adversarial loss provided by a discriminator trained to distinguish real from generated images. This design encourages the generator to recover fine texture details and move its outputs toward of natural images, producing visually convincing results. Experiments on public benchmarks (Set5, Set14, and BSD100) show that SRGAN substantially outperforms existing methods in terms of perceptual quality, as confirmed by human opinion scores (MOS), even with lower PSNR. The findings highlight that conventional quantitative metrics fail to reflect human visual perception and that combining deep residual networks with adversarial and perceptual losses marks a major step toward realistic image super-resolution