Avaliação do desempenho de máquinas de vetores de suporte em cascata aplicadas à biometria multimodal
Visualizar/ Abrir
Data
2025Autor
Silva, Fernando Scolimoski Torres da
Metadata
Mostrar registro completoResumo
Resumo: Sistemas biométricos são projetados para identificar indivíduos por meio da análise de características fisiológicas ou comportamentais únicas. Essas tecnologias são amplamente utilizadas em áreas como segurança, marketing e comunicações. Apesar do crescimento no uso de reconhecimento facial e de voz, condições do mundo real introduzem variabilidades que ambientes controlados não conseguem simular totalmente, evidenciando a necessidade de soluções mais robustas. Esta dissertação propõe uma estrutura de identificação biométrica multimodal que combina características faciais e vocais. As feições faciais são extraídas com um detector de faces baseado em YOLO (You Only Look Once), seguido pela geração de embeddings com o FaceNet, enquanto as características vocais são extraídas com o Deep Speaker. Os embeddings de ambas as modalidades são então fundidos em uma representação unificada para verificação de identidade. O método proposto adota uma arquitetura em cascata: inicialmente, um modelo genérico NxN calcula scores de similaridade entre todos os pares de usuários. Em seguida, os K melhores candidatos são encaminhados para máquinas de vetores de suporte (do inglês Support Vector Machine, SVMs) específicas por usuário, que realizam uma verificação refinada com base nos embeddings fundidos. Essas SVMs são treinadas individualmente para aumentar a precisão da classificação. Foram avaliadas diversas estratégias de fusão e os pipelines foram validados em conjuntos de dados públicos em larga escala, alcançando até 0,16% de Equal Error Rate (ERR) e 99,9% de F1-score Abstract: Biometric systems are designed to identify individuals by analyzing unique physiological or behavioral traits. These technologies are widely used across domains such as security, marketing, and communications. Despite the growing adoption of face and voice recognition, real-world conditions introduce variability that controlled environments struggle to replicate, highlighting the need for more robust solutions. This study introduces a multimodal biometric identification framework that combines facial and voice characteristics. Facial features are extracted using a YOLO-based face detector followed by FaceNet embeddings, while voice characteristics are captured using Deep Speaker. The extracted embeddings from both modalities are fused into a unified representation for identity verification. The proposed method employs a cascaded architecture: initially, a general NxN model computes similarity scores between all user pairs. The top K candidates are then passed to user-specific support vector machines (SVMs), which perform refined identity verification based on the fused embeddings. These SVMs are individually trained to improve classification accuracy. We evaluate several fusion strategies and validate the pipeline on large-scale public datasets, achieving up to 0.16% of Equal Error Rate (ERR) and 99,9% of F1-score
Collections
- Dissertações [245]