Pedestrian detection and monitoring with high spatial resolution images using convolutional neural networks and image processing
Resumo
Resumo: O rastreamento de pedestres é uma área de pesquisa bem estabelecido quando realizado em ambiente interno ou quando a câmera é estática. Mas quando a câmera está ativa, como no caso do ambiente externo, uma série de problemas e desafios emergem. Alguns desses desafios dizem respeito a: alterações de iluminação, oclusão, fundo desordenado e movimentos de pedestres. Nesta tese, buscou-se combinar os métodos baseados em aprendizado profundo e técnicas de processamento de imagens para detectar e rastrear pedestres a partir de imagens de alta resolução espacial obtidas em um ambiente externo. O procedimento inicia aplicando redes neurais convolucionais para detectar pedestres a partir de uma série de imagens. Em seguida, um algoritmo de supressão de fundo é proposto para reduzir a influência da mudança de fundo. O método se baseia na segmentação da imagem, na análise da possível pose e em uma etapa de refinamento final baseada no relaxamento probabilístico. Uma vez extraídas as regiões, informação espúria removida e a pose separada, os atributos da pose são derivados e analisados para rastreamento. Portanto, dois conjuntos de imagens estão disponíveis, com e sem supressão do fundo. Esses conjuntos são usados para rastrear pedestres em série de imagens. O rastreamento é formulado como um problema de "matching" de atributos de um pedestre em quadros de imagens subsequentes, criando, portanto, uma correspondência entre pedestres em sequência de imagens. Para tanto, são comparados os histogramas de duas regiões contendo um pedestre em imagens diferentes. Três opções são analisadas: usando a distância euclidiana; usando Dynamic Time Warping e usando a correlação entre histogramas. Os melhores resultados de rastreamento foram obtidos usando a abordagem de correlação, com precisões acima de 80% e é capaz de lidar com problemas de mudanças na aparência (i.e, pose e forma) e oclusões parciais. No entanto, como lidar com oclusões totais, fundo muito desordenado, permanecem um desafio a ser abordado em trabalhos futuros. Palavras-chave: detecção de pedestre; segmentação e rastreamento; modelos deep learning; processamento de imagem; supressão de fundo; relaxamento probabilístico; correspondência de histograma. Abstract: Pedestrian tracking is a well-established research field when it is performed in an indoor environment or the camera is static. But when the camera is moving, as in the case of the outdoor environment, there are many open issues to be solved. Some of these issues concern: illumination changes, occlusion, cluttered background, and pedestrian movements. In this thesis, deep learning-based methods and image processing technique frameworks are combined to detect and track pedestrians from high spatial resolution images obtained in an outdoor environment. The framework starts by applying deep convolutional neural networks to detect pedestrians from a series of image frames. Then a background suppression algorithm is proposed to reduce the influence of the changing background. The method is based on image segmentation, the analysis of the possible pose, and a final refinement step based on probabilistic relaxation. Once the regions are extracted spurious information is removed and the human figure is separated from the background, feature blobs from the human figures are derived. So, two sets of images are available, with and without background suppression. These sets are used to track the pedestrian in the image series. The tracking approach matches the extracted features of an individual pedestrian in subsequent frames, hence creating a correspondence of targets across multiple image frames. For this purpose, the histograms of two regions containing a pedestrian in different images are compared. Three options are compared: using the Euclidean Distance; using Dynamic Time Warping (DTW) and using the correlation between histograms. The best tracking results were obtained using the correlation approach, with accuracies above 80%, and addresses the problem of changes in appearance (i.e., pose and shape) and partial occlusions. However, full occlusions, more cluttered scenarios, remains a challenge to be addressed for future work. Keywords: pedestrian detection, segmentation and tracking; deep learning models; image processing; background suppression; probabilistic relaxation; histogram matching
Collections
- Teses [104]