Mostrar registro simples

dc.contributor.advisorCoelho, Leandro dos Santos, 1968-pt_BR
dc.contributor.authorTabata, Alan Naotopt_BR
dc.contributor.otherZimmer, Alessandro, 1969-pt_BR
dc.contributor.otherUniversidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétricapt_BR
dc.date.accessioned2021-05-26T20:39:44Z
dc.date.available2021-05-26T20:39:44Z
dc.date.issued2020pt_BR
dc.identifier.urihttps://hdl.handle.net/1884/70293
dc.descriptionOrientador: Prof. Dr. Leandro dos Santos Coelhopt_BR
dc.descriptionCoorientador: Prof. Dr. Alessandro Zimmerpt_BR
dc.descriptionDissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa : Curitiba, 30/07/2020pt_BR
dc.descriptionInclui referências: p. 114-123pt_BR
dc.descriptionÁrea de concentração: Sistemas Eletrônicospt_BR
dc.description.abstractResumo: Na indústria automotiva, o conceito de veículos autônomos vem se aproximando da realidade, com empresas disputando para serem as pioneiras em alcançar pelo menos o nível 3 de direção autônomo. Contudo, antes de implementar veículos autônomos em larga escala, pesquisas e testes devem ser realizados de forma a avaliar a segurança e confiabilidade dos veículos. Como uma das formas pelo qual veículos autônomos percebem seu entorno é por meio de câmeras, então uma abordagem para promover a segurança humana é a pesquisa em técnicas de visão computacional que podem ajudar o veículo a assimilar melhor o contexto em que ele se situa. Logo, nesse trabalho um algoritmo capaz de detectar pedestres e veículos, e a distância deles em relação à câmera será desenvolvido, de forma que trabalhos futuros possam aplicar técnicas de correção de trajetória com antecedência. As principais contribuições são a aplicação e validação de tais técnicas em um contexto diferente daqueles que já foram extensivamente testados na literatura. Nessa dissertação, isso é feito ao criar uma base de dados própria baseada no CARLA e avaliando a capacidade de transferência de conhecimento de algoritmos de visão computacional para outra base de dados real, o Waymo Open. O propósito de uma base de dados sintéticos é possibilitar a geração de grandes quantidades de dados à vontade, um requisito para parametrizar modelos de visão computacional baseados em redes neurais convolucionais profundas. O Faster R-CNN com a ResNet 50 de suporte é avaliada para a tarefa de reconhecimento de objetos, e para a estimativa de profundidade monocular o modelo monodepth2 com a U-Net e ResNet 18 de suporte foram avaliados. Na parte de detecção de objetos, foi notado que a injeção de dados sintéticos não auxiliou na generalização do modelo, com um decréscimo de 12% nas métricas de performance quando comparado com o modelo treinado do zero na base de dados Waymo skip 10. Para a estimativa de profundidade monocular, no entanto, os modelos com melhor desempenho provaram ser a combinação de dados sintéticos e reais, melhorando as métricas de performance em média 5% na base dados do Waymo. No geral, foi notada a importância da diversidade de dados para ambos algoritmos, com a iteração da base de dados sintética atual sendo benéfica para o monodepth2, mas não para o Faster R-CNN, o que sugere que ainda há espaço para melhorias. Essas observações levam a conclusão de que as características que impactam positivamente o modelo para criar uma base de dados diferem de acordo com o propósito do algoritmo, e portanto a criação de uma base de dados de propósito geral provavelmente não é ideal. Palavras-chave: Detecção de pedestres e veículos. Estimativa de profundidade monocular. Redes neurais convolucionais profundas. Veículos autônomos. Base de dados sintética.pt_BR
dc.description.abstractAbstract: In the automotive industry, the concept of autonomous vehicles is becoming closer to reality, with companies disputing to be the pioneers on reaching at least a level 3 on driving automation. However, before implementing autonomous vehicles on a large scale, research and testing should be performed to assess its safety and reliability. Since one of the ways autonomous vehicles sense its surrounding is through cameras, then one approach to promote human safety is by researching computer vision techniques that may help the vehicle to better understand the context it is in. Therefore, on this work algorithms capable of detecting pedestrians and vehicles, and their distance to the camera are evaluated, in a way that future works can apply corrective trajectory procedures in advance. The main contributions of this work are application and validation of such techniques in a context different from those of which have already been extensively tested on the literature. In this dissertation, this is done by creating a custom CARLA-based synthetic dataset and evaluating its knowledge transfer capability with computer vision algorithms to a real-world dataset, Waymo Open. The purpose of a synthetic dataset is the possibility of generating huge amounts of data at will, a requirement for parametrizing state-of-the-art computer vision models based on deep convolutional neural networks. The Faster R-CNN with a ResNet 50 as backbone was evaluated for the bounding box task, and for monocular depth estimation, the monodepth2 model with a U-Net and ResNet 18 as backbone was evaluated. On the object detection part, it was noted that the injection of synthetic data did not aid in model generalization, with 12% performance decrease when compared to training from scratch on the Waymo skip 10 dataset. For monocular depth estimation, however, the best performing models proved to be different combinations of both synthetic and real-world data, with them improving the performance metrics on average 5% on the Waymo dataset. Overall, it is noted the importance of data variety for both algorithms, with the current synthetic dataset iteration being beneficial for monodepth2 but not Faster R-CNN, which suggests that there is still room for improvement. These observations lead to the conclusion that features which impact positively the model for creating a dataset differ according to the algorithm's purpose, and as such the creation of an all-purpose dataset is probably not ideal. Keywords: Pedestrians and vehicles detection. Monocular depth estimation. Deep convolutional neural networks. Autonomous vehicles. Synthetic datasetpt_BR
dc.format.extent123 p. : il. (algumas color.).pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.languageInglêspt_BR
dc.subjectRedes neuraispt_BR
dc.subjectEngenharia Elétricapt_BR
dc.titleObject detection and monocular depth estimation with a custom synthetic automotive datasetpt_BR
dc.typeDissertação Digitalpt_BR


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples