dc.contributor.advisor | Coelho, Leandro dos Santos, 1968- | pt_BR |
dc.contributor.other | Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica | pt_BR |
dc.creator | Vogt, Guilherme Cordeiro | pt_BR |
dc.date.accessioned | 2025-02-25T11:40:48Z | |
dc.date.available | 2025-02-25T11:40:48Z | |
dc.date.issued | 2024 | pt_BR |
dc.identifier.uri | https://hdl.handle.net/1884/95062 | |
dc.description | Orientador: Prof. Dr. Leandro dos Santos Coelho | pt_BR |
dc.description | Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa : Curitiba, 21/11/2024 | pt_BR |
dc.description | Inclui referências | pt_BR |
dc.description.abstract | Resumo: Sistemas de monitoramento com analíticos de vídeo, como detecção de pessoas, oferecem uma operação de segurança mais eficiente em ambientes monitorados por circuitos internos de televisão (CFTV). Contudo, imagens de CFTV frequentemente apresentam ruídos, degradações e artefatos de descompressão, que reduzem signifi cativamente a precisão dos detectores de pessoas convencionais nessas condições adversas. Os detectores de humanos dominantes no estado da arte são baseados em redes neurais convolucionais (do inglês, convolutional neural networks, CNNs). Embora apresentem ampla capacidade de generalização, mesmo quando treinados em con juntos de dados não representativos da realidade, as CNNs fazem uso principalmente de características locais para a detecção, tornando-as suscetíveis às adversidades presentes em imagens de câmeras de monitoramento. Para enfrentar esse desafio, este estudo propõe a utilização de Vision Transformers para a detecção de pessoas em imagens de CFTV. Diferentemente das CNNs, os Vision Transformers utilizam ummecanismo de entrada de dados baseado em auto-atenção, buscando relaciona mentos globais entre as características da imagem, o que apresenta potencial para maior robustez frente às adversidades típicas de imagens de monitoramento. Foram realizados experimentos comparativos entre Real Time Detection Transformers (RT DETR) e topologias da família You Only Look Once (YOLO), amplamente utilizadas para detecção de objetos, focando em cenários com imagens de alta degradação e alto ruído, simulando condições reais de sistemas CFTV. Os resultados demonstraram uma melhora significativa na precisão de detecção de humanos quanto adotados Vision Transformers no lugar de CNNs, com um aumento de mAP 50 em 9,1% para imagens de alta degradação e 7,1% para imagens de alto ruído. Notavelmente, essas melhorias foram alcançadas sem impacto no tempo de inferência quando utilizando uma uma unidade de processamento gráfico (do inglês, Graphics Processing Unit, GPU) modelo T4, corroborando a resiliência e eficiência da topologia Transformer para esta aplicação | pt_BR |
dc.description.abstract | Abstract: Video monitoring systems with video analytics, such as person detection, offer more effi cient security operations in environments monitored by closed-circuit television (CCTV). However, CCTV images frequently present noise, degradation, and compression arti facts, which significantly reduce the accuracy of conventional person detectors under these adverse conditions. The dominant state-of-the-art human detectors are based on convolutional neural networks (CNNs). Although they demonstrate broad generalization capabilities, even when trained on datasets not representaitve of the reality of monitoring systems, CNNs primarily use local features for detection, making them susceptible to the adversities present in monitoring camera images. To address this challenge, this study proposes the use of Vision Transformers for person detection in CCTV images. Unlike CNNs, Vision Transformers utilize a self-attention-based data input mechanism, seeking global relationships between image features, which shows potential for greater robustness against typical adversities in monitoring images. Comparative experiments were conducted between Real Time Detection Transformers (RT-DETR) and topologies from the You Only Look Once (YOLO) family, widely used for object detection, focusing on scenarios with highly degraded and noisy images, simulating real conditions of CCTVsystems. The results demonstrated a significant improvement in human detection accuracy, with an increase of 9.1% in mAP 50 for highly degraded images and 7.1% for high-noise images, when Vision Transformers are compared with CNNs. Notably, these improvements were achieved without impact on inference time when using a Graphics Processing Unit (GPU) model T4, corroborating the resilience and efficiency of the Transformer topology for this application | pt_BR |
dc.format.extent | 1 recurso online : PDF. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language | Português | pt_BR |
dc.subject | Redes neurais (Computação) | pt_BR |
dc.subject | Aprendizado do computador | pt_BR |
dc.subject | Sistemas imageadores | pt_BR |
dc.subject | Engenharia Elétrica | pt_BR |
dc.title | Detecção de pessoas por imagem CFTV em tempo real utilizando Vision Transformers | pt_BR |
dc.type | Dissertação Digital | pt_BR |