Machine learning techniques applied in human recognition using RGB-D videos

Boaretto, Marco Antonio Reichert

dc.contributor.advisor	Coelho, Leandro dos Santos, 1968-	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica	pt_BR
dc.creator	Boaretto, Marco Antonio Reichert	pt_BR
dc.date.accessioned	2024-04-25T18:54:02Z
dc.date.available	2024-04-25T18:54:02Z
dc.date.issued	2017	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/52576
dc.description	Orientador: Prof. Dr. Leandro dos Santos Coelho	pt_BR
dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa: Curitiba, 22/11/2017	pt_BR
dc.description	Inclui referências : f. 84-95	pt_BR
dc.description.abstract	Resumo: De acordo com certas particularidades e dificuldades em lidar com imagens 2D, como por exemplo iluminação e obstrução de objetos, uma melhor opção para o problema em questão é utilizar imagens três dimensões (3D) ou Red, Green and Blue - Depth (RGB-D) como comumente são chamadas. Imagens RGB-D são invariantes a luz pelo fato da maioria dos seus dispositivos de aquisição utilizarem infravermelho ou sensores de laser time-of-flight. O Kinect da Microsoft® que foi desenvolvido em parceria com a PrimeSense é uma ferramenta incrível para aquisição de imagens RGB-D de baixa resolução, suas aplicações variam de jogos a imagens médicas. Como o Kinect possui um custo acessível, vem sendo muito utilizado em pesquisas de diversas áreas que fazem uso de visão computacional e classificação de imagens. Diversas base de dados para classificação de imagens RGB-D já foram desenvolvidas com o Kinect, como por exemplo a base de dados multimodal de atividade humana (MHAD) desenvolvido pelo laboratório de tele imersão da Universidade de Califórnia em parceria com o Centro de Ciências de Imagem da Universidade John Hopkins, na qual contem imagens de 10 pessoas desenvolvendo 11 atividades: pulando no lugar (pular), polichinelo (polichinelo), curvando o corpo para frente até o chão (curvar), socando (socar), acenando com as duas mãos (acenando2), acenando com a mão direita (acenando), batendo palmas (palmas), arremessando uma bola (arremessar), sentar e ficar de pé (sentar+levantar), sentando (sentar), ficando de pé (levantar). O principal objetivo da dissertação consiste em comparar duas abordagens de aprendizado de máquina, (i) usando um proposto comitê de máquina com Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Extreme Gradient Boosting (XGBoost) e Artificial Neural Networks (ANN) combinado com três diferentes técnicas de redução de dimensionalidade Principal Component Analysis (PCA), Factor Analysis (FA) e Nonnegative Matrix Factorization (NMF) e (ii) de uma abordagem de aprendizado profundo usando uma proposta arquitetura de Convolutional Neural Network (CNN) chamada de BOANet, usando o MHAD como base de dados. A contribuição do projeto consiste em um sistema de reconhecimento de atividade humana que usa o Kinect para reconhecimento de imagens RGB-D e algoritmos de aprendizado de máquina para construir um modelo classificador. As abordagens propostas tiveram sua performance comparada com valores de referência de recentes trabalhos com o MHAD da literatura. Ambas abordagens tiveram ótima performance obtendo resultados melhores do que a maioria dos valores referência da literatura, a abordagem (i) conseguiu atingir um valor de 99.93% de precisão de classificação e a (ii) 99.05%.	pt_BR
dc.description.abstract	Abstract: Given the particularities and issues on dealing with two Dimensions (2D) images, as illumination and object occlusion, one better option to counteract this matter is to work with three Dimensions (3D) images or Red, Green and Blue - Depth (RGBD) as they are usually called. RGB-D images are invariant of illumination since mostly of its acquisition devices use infra-red or time-of-flight laser sensors. The Microsoft® Kinect developed in partnership with PrimeSense is an amazing tool for RGB-D low resolution image acquisition, which its applications vary from gaming to medical imagery. Since Kinect has an accessible cost, it has been widely used in researches on many areas that use computer vision and image classification. Several datasets have already been developed with the Kinect for RGB-D image classification, as for example the Berkeley's Multimodal Human Activity Database (MHAD) from the Tele immersion Laboratory of University of California and the Center for Imaging Science of Johns Hopkins University, which contain images of 10 subjects performing 11 activities: jumping in place (jump), jumping jacks (jack), bending-hands up all the way down (bend), punching (punch), waving two hands (wave2), waving right hand (wave1), clapping hands (clap), throwing a ball (throw), sit down and stand up (sit +stand), sit down (sit), stand up (stand). The main goal of this dissertation is to compare different machine learning approaches, (i) using a proposed ensemble learning technique with Support Vector Machines (SVM), K-Nearest Neighbors (kNN), Extreme Gradient Boosting (XGBoost) and Artificial Neural Networks (ANN) combined with three different dimensionality reduction techniques Principal Component Analysis (PCA), Factor Analysis (FA) and Nonnegative Matrix Factorization (NMF) and (ii) from the Deep Learning (DL) approach using a proposed convolutional neural network (CNN) architecture known as BOANet, using the MHAD as Dataset. The contribution of the project consists on a human activity recognition system (HAR) that uses Kinect for RGB-D image recognition and machine learning algorithm to build the model classifier. The proposed approaches have its performance compared with reference values from recent works with the MHAD of the literature. Both approaches got remarkable performance having better results than most of the reference values from the literature, the (i) approach achieved 99.93% of classification accuracy and (ii) achieved 99.05% of classification accuracy.	pt_BR
dc.format.extent	97 f. : il. algumas color., gráfs., tabs.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Inglês	pt_BR
dc.relation	Disponível em formato digital	pt_BR
dc.subject	Engenharia elétrica	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.subject	Visão por computador	pt_BR
dc.subject	Imagens digitais	pt_BR
dc.title	Machine learning techniques applied in human recognition using RGB-D videos	pt_BR
dc.type	Dissertação	pt_BR

Arquivos deste item

Nome:: R - D - MARCO ANTONIO REICHERT ...
Tamanho:: 3.804Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Dissertações [258]

Mostrar registro simples