Identity-preserving face super-resolution for robust recognition with diffusion models

Santos, Marcelo dos

Visualizar/Abrir

R - T - MARCELO DOS SANTOS.pdf (8.021Mb)

Data

2026

Autor

Santos, Marcelo dos

Metadata

Mostrar registro completo

Resumo

Resumo: Sistemas de reconhecimento facial apresentam alto desempenho em condições controladas, mas sua acurácia é substancialmente reduzida em cenários reais de vigilância, onde as imagens faciais possuem baixa resolução e são afetadas por diversas degradações. A super-resolução tem sido adotada como uma estratégia de pré-processamento; no entanto, a maioria desses métodos é otimizada para fidelidade visual em vez de desempenho de reconhecimento, o que pode levar a distorções nos embeddings de identidade. Esta tese investiga a super-resolução facial com preservação de identidade utilizando modelos de difusão. Partimos da hipótese de que tratar a super-resolução como um problema de reconstrução determinístico, combinado com a otimização para objetivos em nível de pixel ou métricas perceptuais, leva a distorções sistemáticas nos embeddings de identidade. Para abordar essa limitação, desenvolvemos estratégias que incorporam informações de identidade ao processo de reconstrução e levam em conta a incerteza inerente ao problema. Propomos abordagens complementares. Inicialmente, introduzimos o SDE-SR (Stochastic Differential Equation-based Super-Resolution), um modelo de super-resolução baseado em difusão. Em seguida, propomos o SRDG (Super-Resolution with Diffusion Guidance), que incorpora atributos biométricos suaves por meio de classifier guidance. Posterior mente, o FASR++ (Feature Aggregation Super-Resolution++) combina embeddings de identidade provenientes de múltiplas observações de baixa resolução antes da reconstrução, fortalecendo o sinal de condicionamento. Por fim, o LSR (Lévy-based Super-Resolution) emprega difusão baseada em processos de Lévy para gerar múltiplas reconstruções plausí veis e realiza a agregação no espaço de embeddings, reduzindo o viés de reconstrução e aumentando a robustez. Os resultados experimentais mostram melhorias consistentes no desempenho de reconhecimento sob degradação de resolução. Esses achados indicam que a super-resolução facial voltada ao reconhecimento requer a priorização da consistência dos embeddings e o tratamento da ambiguidade de reconstrução

Abstract: Face recognition systems achieve high performance under controlled conditions, but their accuracy is substantially reduced in real-world surveillance scenarios, where facial images have low resolution and are affected by various degradations. Super-resolution has been adopted as a preprocessing strategy; however, most of these methods are optimized for visual fidelity rather than recognition performance, which can lead to distortions in identity embeddings. This thesis investigates identity-preserving face super-resolution using diffusion models. We hypothesize that treating super-resolution as a deterministic reconstruction problem, combined with optimization for pixel-level or perceptual objectives, leads to systematic distortions in identity embeddings. To address this, we develop strategies that incorporate identity information into the reconstruction process and account for the inherent uncertainty of the problem. We propose complementary approaches. We first introduce SDE-SR (Stochastic Differential Equation-based Super-Resolution), a diffusion-based super-resolution framework. We then propose SRDG (Super-Resolution with Diffusion Guidance), which incorporates soft biometric attributes through classifier guidance. Next, FASR++ (Feature Aggregation Super-Resolution++) combines identity embeddings from multiple low-resolution observations prior to reconstruction, strengthening the conditioning signal. Finally, LSR (Lévy-based Super-Resolution) employs Lévy-driven diffusion to generate multiple plausible reconstructions and performs aggregation at the embedding level, reducing reconstruction bias and improving robustness. The experimental results show consistent improvements in the recognition performance under resolution degradation. These findings indicate that effective face super-resolution for recognition requires prioritizing embedding consistency and accounting for reconstruction ambiguity

URI

https://hdl.handle.net/1884/105210

Collections

Teses [148]