Redes neurais convolucionais para análise de expressões faciais
Abstract
Resumo: Este trabalho propõe uma rede neural convolucional (CNN) para efetuar a detecção e
estimativa de intensidade de Action Units (AUs), de forma simultânea, em imagens de faces em
poses arbitrárias. Na literatura existem vários métodos para detectar e estimar intensidades de
AUs, entretanto, poucos lidam com as variações na pose e levam em consideração a correlação
entre os AUs e as intensidades. Ainda, ao considerar a inferência conjunta surge o problema
de desequilíbrio entre a quantidade de anotações para cada classe, o que dificulta o processo
de otimização e generalização. Porém, é necessário lidar com essas restrições para que esses
métodos possam ser utilizados em ambientes não controlados. Outro detalhe que dificulta a
generalização para esses ambientes é a falta de bases de imagens anotadas. Nesse caso, é possível
estender bases com modelos 3D para gerar poses arbitrárias de forma sintética assim como feito
no Facial Expression Analysis and Recognition Challenge (FERA) 2017. Portanto, utilizando
uma base de poses sintéticas, este trabalho propõe um modelo baseado em uma CNN, chamado
AUMPNet, e aprendizado multi-tarefa para detectar e estimar a intensidade de AUs. Além
do modelo para inferência conjunta, também é demonstrada uma abordagem para diminuir o
desequilíbrio entre as intensidades dos AUs durante a otimização. O desempenho do modelo
proposto, utilizando as bases do FERA 2015 e FERA 2017, é similar ao estado-da-arte, sendo
superior para algumas AUs individualmente.
Palavras-chave: análise de expressões faciais, visão computacional, redes neurais convolucionais. Abstract: This work presents a convolutional neural network (CNN) for joint Action Unit (AU) detection and intensity estimation on images of face in arbitrary head poses. There are a variety of approaches for AU detection and intensity estimation, however, few of them take into account head pose variations and the correlations among AUs and their intensities. Still, the problem of class imbalance appears when considering the joint inference of AUs, making optimization and generalization harder. Though, it is required to cope with these constraints in order to apply these methods in unconstrained environments. Another difficulty is the lack of labelled images in these conditions. In this case, it is possible to extend existing databases of 3D models to produce synthetic images in arbitrary head poses as in Facial Expression Recognition and Analysis Challenge (FERA) 2017. Thus, by using this database of synthetic head poses this work proposes a multi-task CNN based model, called AUMPNet, to detect AUs and estimate their intensity. Moreover, an approach to handle class imbalance among AUs during optimization is shown. The proposed model, when applied on the FERA 2015 and FERA 2017 databases, achieves average results comparable to the state-of-the-art, and surpasses them for some AUs individually. Keywords: facial expression analysis, computer vision, convolutional neural networks.
Collections
- Dissertações [365]