Paradigmas de aprendizado de máquina aplicados em reconhecimento facial

Andrade, Gabriel Herman Bernardim

dc.contributor.advisor	Coelho, Leandro dos Santos, 1968-	pt_BR
dc.contributor.author	Andrade, Gabriel Herman Bernardim	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica	pt_BR
dc.date.accessioned	2021-05-26T20:45:14Z
dc.date.available	2021-05-26T20:45:14Z
dc.date.issued	2019	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/64248
dc.description	Orientador: Prof. Dr. Leandro dos Santos Coelho	pt_BR
dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa : Curitiba, 24/06/2019	pt_BR
dc.description	Inclui referências: p. 125-134	pt_BR
dc.description	Área de concentração: Sistemas eletrônicos	pt_BR
dc.description.abstract	Resumo: As expressões faciais desempenham um papel significativo na interação interpessoal, sendo capazes de exprimir estado emocional, veracidade e adicionar contexto à comunicação verbal. O reconhecimento automático de expressões faciais ainda é um desafio para os computadores, visto que é complicado identificar e separar as características relevantes de cada expressão. Quando lidando com imagens 2D, problemas tais como diferenças de iluminação, posição e oclusão facial são empecilhos para o bom desempenho destes sistemas. Na tentativa de contornar este problema, vários métodos que utilizam modelos 3D da face foram propostos. Entretanto, sensores 3D de alta resolução continuam tendo custo elevado e alto tempo de captura para aquisição de imagens, o que inviabiliza a aplicação desta tecnologia em sistemas de tempo real. O sensor Kinect da Microsoft® se apresenta como uma alternativa barata e rápida para aquisições de imagens de profundidade, porém as imagens por esta capturadas possuem menor resolução e maior nível de ruído, o que pode resultar em falha na captura de características e informações relevantes para o modelamento das emoções faciais. A transferência do conhecimento adquirido por meio do treinamento de um algoritmo sobre dados em alta resolução para a aplicação em imagens adquiridas com o sensor Kinect pode contribuir para a minimização deste tipo de problema. Neste sentido, o objetivo desta dissertação é desenvolver um sistema capaz de reconhecer seis expressões faciais básicas, por meio de imagens em 3D adquiridas por um sensor Kinect, classificadas por modelos de Aprendizado de Máquina treinados sobre a base de dados Bosphorus DB, obtida por um scanner 3D de alta resolução. A geração dos modelos de aprendizado sobre a base de dados foi realizada por meio da avaliação de desempenho de três abordagens de extração de características, por meio de geometria (Pontos Fiduciais Faciais), textura (Padrões Binários Locais) e camadas de convolução. Os vetores de características extraídos da base de dados foram empregados para treinar e comparar o desempenho de quatro algoritmos de Aprendizado de Máquina nesta tarefa, Máquina de Vetores de Suporte, K-Vizinhos mais Próximos, Redes Neurais Artificiais e Comitês de Máquinas. A abordagem utilizando uma adaptação da Rede Neural Convolucional AlexNet para trabalhar com imagens RGB-D obteve a melhor desempenho de classificação sobre a base de dados, atingindo 86.67% de precisão. Este modelo foi então adaptado para a classificação das imagens capturadas pelo Kinect, sendo capaz de identificar 72,62% das expressões faciais corretamente. Palavras-chave: Aprendizado de Máquina. Kinect. Computação Afetiva. Reconhecimento de expressões faciais. RGB-D.	pt_BR
dc.description.abstract	Abstract: Facial expressions play a significant role in interpersonal interaction, being able to express emotional state, veracity and add context to the verbal communication. Automatic facial expression recognition is still a challenge for computers, since it is complicated to identify and isolate relevant characteristics for each expression. When dealing with 2D images, problems such as dynamic lighting, position and facial occlusion are burdens in order for this kind of system to achieve good performance. As an attempt to circumvent this problem, several methods that use 3D face models were proposed. However, high-resolution 3D sensors continue to have high cost and long capture time, which makes it unfeasible to be applied to real-time systems. The Microsoft® Kinect is a fast and inexpensive alternative for depth image acquisition, but the images it captures have poor resolution and higher noise levels, which can result in failure to capture relevant features and information required to model facial emotions. The transfer of the acquired knowledge through the training of an algorithm on high resolution data to be applied on a set of images captured by the Kinect can contribute to the mitigation of this kind of problem. In this sense, the objective of this dissertation is to develop a system capable of recognizing six basic facial expressions through 3D images acquired by a Kinect device, classified by Machine Learning models trained over high resolution 3D scanner data, provided by the Bosphorus database. The generation of the learning models over the database images was performed through the evaluation of three kind of facial features extraction, through geometry (Facial Fiducial Points), texture (Local Binary Patterns) and convolutional layers. Feature vectors extracted from the database were used to train and compare the performance of four Machine Learning algorithms for this task, Support Vector Machines, K-Nearest Neighbors, Artificial Neural Networks and Ensembles. The approach using an adapted AlexNet Convolutional Neural Network, able to process RGB-D images, obtained the best classification performance applied to the database, reaching an accuracy of 86.67%. This model was then adapted to the classification of the images captured by the Kinect, being able to identify 72.62% of the facial expressions correctly. Keywords: Machine Learning. Kinect. Affective Computing. Facial Expression Recognition. RGB-D.	pt_BR
dc.format.extent	[134] p. : il.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Expressão facial	pt_BR
dc.subject	Algorítmos de computador	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Engenharia Elétrica	pt_BR
dc.title	Paradigmas de aprendizado de máquina aplicados em reconhecimento facial	pt_BR
dc.type	Dissertação Digital	pt_BR

Arquivos deste item

Nome:: R - D - GABRIEL HERMAN BERNARDIM ...
Tamanho:: 10.39Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Dissertações [174]

Mostrar registro simples