Mostrar registro simples

dc.contributor.advisorCoelho, Leandro dos Santos, 1968-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétricapt_BR
dc.creatorBoaretto, Marco Antonio Reichertpt_BR
dc.date.accessioned2024-04-25T18:54:02Z
dc.date.available2024-04-25T18:54:02Z
dc.date.issued2017pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/52576
dc.descriptionOrientador: Prof. Dr. Leandro dos Santos Coelhopt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa: Curitiba, 22/11/2017pt_BR
dc.descriptionInclui referências : f. 84-95pt_BR
dc.description.abstractResumo: De acordo com certas particularidades e dificuldades em lidar com imagens 2D, como por exemplo iluminação e obstrução de objetos, uma melhor opção para o problema em questão é utilizar imagens três dimensões (3D) ou Red, Green and Blue - Depth (RGB-D) como comumente são chamadas. Imagens RGB-D são invariantes a luz pelo fato da maioria dos seus dispositivos de aquisição utilizarem infravermelho ou sensores de laser time-of-flight. O Kinect da Microsoft® que foi desenvolvido em parceria com a PrimeSense é uma ferramenta incrível para aquisição de imagens RGB-D de baixa resolução, suas aplicações variam de jogos a imagens médicas. Como o Kinect possui um custo acessível, vem sendo muito utilizado em pesquisas de diversas áreas que fazem uso de visão computacional e classificação de imagens. Diversas base de dados para classificação de imagens RGB-D já foram desenvolvidas com o Kinect, como por exemplo a base de dados multimodal de atividade humana (MHAD) desenvolvido pelo laboratório de tele imersão da Universidade de Califórnia em parceria com o Centro de Ciências de Imagem da Universidade John Hopkins, na qual contem imagens de 10 pessoas desenvolvendo 11 atividades: pulando no lugar (pular), polichinelo (polichinelo), curvando o corpo para frente até o chão (curvar), socando (socar), acenando com as duas mãos (acenando2), acenando com a mão direita (acenando), batendo palmas (palmas), arremessando uma bola (arremessar), sentar e ficar de pé (sentar+levantar), sentando (sentar), ficando de pé (levantar). O principal objetivo da dissertação consiste em comparar duas abordagens de aprendizado de máquina, (i) usando um proposto comitê de máquina com Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Extreme Gradient Boosting (XGBoost) e Artificial Neural Networks (ANN) combinado com três diferentes técnicas de redução de dimensionalidade Principal Component Analysis (PCA), Factor Analysis (FA) e Nonnegative Matrix Factorization (NMF) e (ii) de uma abordagem de aprendizado profundo usando uma proposta arquitetura de Convolutional Neural Network (CNN) chamada de BOANet, usando o MHAD como base de dados. A contribuição do projeto consiste em um sistema de reconhecimento de atividade humana que usa o Kinect para reconhecimento de imagens RGB-D e algoritmos de aprendizado de máquina para construir um modelo classificador. As abordagens propostas tiveram sua performance comparada com valores de referência de recentes trabalhos com o MHAD da literatura. Ambas abordagens tiveram ótima performance obtendo resultados melhores do que a maioria dos valores referência da literatura, a abordagem (i) conseguiu atingir um valor de 99.93% de precisão de classificação e a (ii) 99.05%.pt_BR
dc.description.abstractAbstract: Given the particularities and issues on dealing with two Dimensions (2D) images, as illumination and object occlusion, one better option to counteract this matter is to work with three Dimensions (3D) images or Red, Green and Blue - Depth (RGBD) as they are usually called. RGB-D images are invariant of illumination since mostly of its acquisition devices use infra-red or time-of-flight laser sensors. The Microsoft® Kinect developed in partnership with PrimeSense is an amazing tool for RGB-D low resolution image acquisition, which its applications vary from gaming to medical imagery. Since Kinect has an accessible cost, it has been widely used in researches on many areas that use computer vision and image classification. Several datasets have already been developed with the Kinect for RGB-D image classification, as for example the Berkeley's Multimodal Human Activity Database (MHAD) from the Tele immersion Laboratory of University of California and the Center for Imaging Science of Johns Hopkins University, which contain images of 10 subjects performing 11 activities: jumping in place (jump), jumping jacks (jack), bending-hands up all the way down (bend), punching (punch), waving two hands (wave2), waving right hand (wave1), clapping hands (clap), throwing a ball (throw), sit down and stand up (sit +stand), sit down (sit), stand up (stand). The main goal of this dissertation is to compare different machine learning approaches, (i) using a proposed ensemble learning technique with Support Vector Machines (SVM), K-Nearest Neighbors (kNN), Extreme Gradient Boosting (XGBoost) and Artificial Neural Networks (ANN) combined with three different dimensionality reduction techniques Principal Component Analysis (PCA), Factor Analysis (FA) and Nonnegative Matrix Factorization (NMF) and (ii) from the Deep Learning (DL) approach using a proposed convolutional neural network (CNN) architecture known as BOANet, using the MHAD as Dataset. The contribution of the project consists on a human activity recognition system (HAR) that uses Kinect for RGB-D image recognition and machine learning algorithm to build the model classifier. The proposed approaches have its performance compared with reference values from recent works with the MHAD of the literature. Both approaches got remarkable performance having better results than most of the reference values from the literature, the (i) approach achieved 99.93% of classification accuracy and (ii) achieved 99.05% of classification accuracy.pt_BR
dc.format.extent97 f. : il. algumas color., gráfs., tabs.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languageInglêspt_BR
dc.relationDisponível em formato digitalpt_BR
dc.subjectEngenharia elétricapt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectVisão por computadorpt_BR
dc.subjectImagens digitaispt_BR
dc.titleMachine learning techniques applied in human recognition using RGB-D videospt_BR
dc.typeDissertaçãopt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples