dc.contributor.advisor | Lolis, Luis Henrique, 1985- | pt_BR |
dc.contributor.other | Zimmer, Alessandro, 1969- | pt_BR |
dc.contributor.other | Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica | pt_BR |
dc.creator | Gubert, Gabriel Vitor Klaumann | pt_BR |
dc.date.accessioned | 2025-01-06T21:42:58Z | |
dc.date.available | 2025-01-06T21:42:58Z | |
dc.date.issued | 2024 | pt_BR |
dc.identifier.uri | https://hdl.handle.net/1884/94152 | |
dc.description | Orientador: Prof. Luis Henrique Assumpção Lolis | pt_BR |
dc.description | Coorientador: Prof. Alessandro Zimmer | pt_BR |
dc.description | Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa : Curitiba, 28/08/2024 | pt_BR |
dc.description | Inclui referências | pt_BR |
dc.description.abstract | Resumo: A evolução da direção autônoma é influenciada pela convergência de tecnologias que moldam as capacidades dos sistemas de percepção. Este estudo reflete a interação entre aprendizado profundo, aceleradores de hardware especializados e representações numéricas avançadas, especificamente os Posits, no contexto do CenterFusion - um método de fusão intermediária para integrar dados de radar e câmera, desenvolvido para veículos autônomos. Posit é um tipo de representação e aritmética numérica em ponto flutuante cujos campos têm tamanhos variáveis, resultando em precisão não uniforme. Para otimizar o CenterFusion para sistemas embarcados, uma técnica de quantização de parâmetros e inferência de hardware usando números Posit foi desenvolvida, nomeada Posits4Torch e Posits4TorcHA. O principal objetivo deste estudo é avaliar a redução no uso de memória, o ganho em velocidade de processamento e a degradação de desempenho do CenterFusion, quando submetido à quantização com Posit, em termos de erros médios e do NuScenes Detection Score. Os resultados demonstram que os erros de inferência para o modelo emulado Deep PeNSieve em uma Unidade Central de Processamento (CPU) AMD EPYC 7413 de 24 núcleos e o modelo baseado em Posits4TorcHA em um Arranjo de Portas Lógicas Campo-Programáveis (FPGA) AMD Kria KV260 foram idênticos. O tempo de inferência do modelo baseado em FPGA de 3,49 segundos foi aproximadamente 1000 vezes menor que os 3194,69 segundos do modelo baseado em CPU, mas 300 vezes maior que o modelo baseado em Unidade de Processamento Gráfico (GPU) do PyTorch, executado em uma GPU NVIDIA GeForce RTX 3090. Além disso, as métricas de implementação em FPGA para o Arranjo de Unidades de Multiplicação e Acumulação (MAC) 2D 8x8 Posit no AMD Kria KV260 mostraram um consumo de energia de 2,939 W, 3,033 W e 3,090 W para precisões Posit de 6, 7 e 8 bits, respectivamente, destacando a eficiência de recursos da abordagem. Ao quantizar as cabeças de regressão do CenterFusion, uma precisão Posit de 8 bits para Posit-como-Armazenamento (PaS) resultou em uma degradação na Precisão Média (mAP) e no Escore de Detecção NuScenes (NDS) de, respectivamente, 0,7% e 0,5%. Para Posit-como-Aritmética (PaA) na FPGA, certas métricas como o Erro Médio de Velocidade (mAVE) e o Erro Médio de Translação (mATE) foram mais afetadas, com precisão de 8 bits levando a degradações na mAP e NDS de 9,8% e 7,7%, respectivamente, o que pode ser melhorado treinando o modelo com uma precisão Posit mais alta e subsequentemente quantizando para uma precisão Posit mais baixa usando Posits4Torch. Esta abordagem apresenta uma perspectiva promissora para otimizar o desempenho de redes neurais em sistemas de percepção e fusão de sensores para veículos autônomos. Ao melhorar a eficiência usando larguras de bits menores sem comprometer muito a precisão, esta pesquisa contribui para o desenvolvimento de soluções de IA de alta velocidade e mais eficientes em termos de energia para sistemas embarcados de veículos autônomos, demonstrando o progresso contínuo no campo da tecnologia de condução autônoma | pt_BR |
dc.description.abstract | Abstract: The evolution of autonomous driving is influenced by the convergence of technologies shaping the capabilities of perception systems. This study reflects the interaction between deep learning, specialized hardware accelerators, and advanced numerical representations, specifically Posits, in the context of CenterFusion - a middle-fusion method for fusing radar and camera data designed for autonomous vehicles. Posit is a type of floating-point numerical representation and arithmetic whose fields have variable sizes, resulting in non-uniform precision. In order to optimize the CenterFusion for embedded systems, a parameter quantization and hardware inference technique using Posit numbers was developed, named Posits4Torch and Posits4TorcHA. The main objective of this study is to evaluate the reduction in memory usage, processing speed gain, and degradation of CenterFusion performance, when subjected to Posit quantization, in terms of the average errors and the NuScenes Detection Score. The results demonstrate that the inference errors for both the Deep PeNSieve-emulated model on an AMD EPYC 7413 24-Core Central Processing Unit (CPU) and the Posits4TorcHA-based model on an AMD Kria KV260 Vision Starter Kit Field-Programmable Gate Array (FPGA) were identical. The FPGA-based model’s inference time of 3,49 seconds was nearly 1000 times lower than the 3194,69 seconds of the CPU model but 300 times higher than the PyTorch Graphics Processing Unit (GPU) model, which ran on a NVIDIA GeForce RTX 3090. Moreover, FPGA implementation metrics for the 2D 8x8 Posit MAC Unit Array on the AMD Kria KV260 showed a power consumption of 2,939 W, 3,033 W, and 3,090 W for Posit precisions of 6, 7, and 8 bits, respectively, highlighting the approach’s resource efficiency. When quantizing CenterFusion’s regression heads, an 8-bit Posit precision for Posit-as-Storage (PaS) resulted in a degradation in the Mean Average Precision (mAP) and NuScenes Detection Score (NDS) of, respectively, 0,7% and 0,5%. For Posit-as-Arithmetic (PaA) on the FPGA, certain metrics like Mean Average Velocity Error (mAVE) and Mean Average Translation Error (mATE) were more affected, with 8-bit precision leading to degradations in mAP and NDS by 9,8% and 7,7%, respectively, which can be improved by training the model with a higher Posit precision and subsequently quantizing to a lower Posit precision using Posits4Torch. This approach presents a promising perspective for optimizing neural network performance in perception and sensor fusion systems for autonomous vehicles. By improving efficiency using lower bit-widths without compromising too much accuracy, this research contributes to the development of more energy-efficient high-speed AI solutions for autonomous vehicle’s embedded systems, demonstrating ongoing progress in the field of autonomous driving technology | pt_BR |
dc.format.extent | 1 recurso online : PDF. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language | Inglês | pt_BR |
dc.subject | Redes neurais (Computação) | pt_BR |
dc.subject | Veículos autônomos | pt_BR |
dc.subject | Engenharia Elétrica | pt_BR |
dc.title | Avaliação de desempenho de uma rede neural de aprendizado profundo quantizada em Posit para detecção tridimensional e classificação de objetos com sinais de radar e câmera | pt_BR |
dc.type | Dissertação Digital | pt_BR |