A deep learning approach for emergency vehicles classification and localization using acoustic sensors

Hoffmann, Abdul Mohamad Kadri, 1992-

dc.contributor.advisor	Ribeiro, Eduardo Parente, 1967-	pt_BR
dc.contributor.author	Hoffmann, Abdul Mohamad Kadri, 1992-	pt_BR
dc.contributor.other	Huber, Werner	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica	pt_BR
dc.date.accessioned	2022-03-21T13:50:31Z
dc.date.available	2022-03-21T13:50:31Z
dc.date.issued	2021	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/73445
dc.description	Orientador: Prof. Dr. Eduardo Parente Ribeiro	pt_BR
dc.description	Coorientador: Prof. Dr. Werner Huber	pt_BR
dc.description	Dissertação (mestrado) - Universidade Federal do Paraná, Setor de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica. Defesa : Curitiba, 27/08/2020	pt_BR
dc.description	Inclui referências: p. 103-106	pt_BR
dc.description.abstract	Resumo: A indústria automotiva tem como uma de suas tecnologias mais notáveis e promissoras as funções de sistemas avançados de assistência ao condutor-Advanced Driver Assistance System (ADAS) e consequentemente a direção autônoma. Isto não só deve afetar positivamente a segurança atualmente encontrada no trafego urbano, mas deve revolucionar todo o modelo de negócios dessa indústria, como já se observa. Este projeto objetiva investigar se sensores acústicos automotivos podem ser considerados uma contribuição tecnológica viável ao atual grupo de sensores usualmente utilizados. Uma rede neural convolucional (CNN) foi treinada como modelo de classificação binário para detecção de veículos de emergência. O classificador que teve melhor desempenho foi obtido utilizando uma versão modificada da arquitetura AlexNet, treinada com uma variedade de sons de trafego urbano e sirenes de veículos de emergência de diversas regiões do mundo. Foi utilizado um total de 23 horas de gravação. Os segmentos de áudio foram tratados e pré-processados ate chegar a forma de espectrogramas-mel, os quais foram utilizados na camada de entrada da CNN. Isto permitiu ao modelo uma melhor capacidade de generalização sobre o conceito da presença, ou não, de um veiculo de emergência. Obteve-se um score-f1 médio de 0,935 e 0,895 no treinamento e validação cruzada, respectivamente, e um valor de 98% de área sob a curva ROC (AUC). Também se avaliou a localização da fonte sonora utilizando a técnica de correlação-cruzada generalizada - Generalized Cross-Correlation (GCC) para estimar a diferença de tempo de chegada - time difference of arrival (TDOA) das frentes de ondas, e um conjunto de regras heurísticas para obter a direção de chegada - direction of arrival (DOA). Assim se obteve o azimute relativo da fonte, com acurácia de 89,89% em cenários estáticos, mas somente 4,88% em cenários dinâmicos. O conjunto de treinamento utilizado foi uma mistura entre o banco de áudios AudioSet and ensaios gravados nas premissas Center of Automotive Research on Integrated Safety Systems and Measurement Area (CARISSMA). Os resultados da classificação foram melhores do que os encontrados em outros estudos de classificação de áudio em situações de trânsito, enquanto os resultados de localização de fontes sonoras só se mostraram eficientes em cenários estáticos.	pt_BR
dc.description.abstract	Abstract: One of the most prominent and promising technologies in the modern automotive industry is the advent of Advanced Driver Assistance System (ADAS) and the autonomous driving. It may not only change safety levels currently found in traffic, but also revolutionize the whole automotive industry business model, as we can see hints of it happening already. This project investigates whether audio sensors can be a technological viable addition to the current sensor set vehicle commonly use. A Convolutional Neural Network (CNN) was trained to classify auditory scenarios as containing emergency vehicles or not containing emergency vehicles. The best performing classifier was obtained using a slightly modified AlexNet architecture, trained with audio excerpts of various urban and traffic scenarios as well as emergency vehicle sirens from all over the world, totaling a duration of almost 23 hours. These excerpts went through a series pre-processing steps, and transformation to mel-spectrograms that were fed to CNN's input layer. That granted the model better generalization over the class of emergency vehicles, allowing the model to achieve class-averaged f1-scores for the training and validation sets of 0.935 and 0.895, respectively. Using the latter dataset, a 98% Area Under the ROC Curve (AUC) was achieved. Moreover, a sound source localization algorithm was employed using generalized cross-correlation (GCC) to provide the source's audio wavefront Time-Difference of Arrival (TDOA) on the microphone array. A group of heuristic rules were applied to disambiguate these values, transforming to Direction of Arrival (DOA). The obtained relative azimuth, presented 89.89% accuracy in static scenarios, but only 4.88% accuracy in dynamic scenarios. The training data was assembled using a mixture between AudioSet dataset and tests recorded in enter of Automotive Research on Integrated Safety Systems and Measurement Area (CARISSMA) facilities, and the latter source was also used for source localization estimation and could be validated against data recorded using the Automative Dynamic Motion Analyzer (ADMA). Results show that classification results were better than the ones found in closely correlated works, but source localization results only showed efficiency in static scenarios.	pt_BR
dc.format.extent	1 arquivo (110 p.) : il. (algumas color.).	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Inglês	pt_BR
dc.subject	Indústria automobilística	pt_BR
dc.subject	Engenharia Elétrica	pt_BR
dc.subject	Detectores	pt_BR
dc.title	A deep learning approach for emergency vehicles classification and localization using acoustic sensors	pt_BR
dc.type	Dissertação Digital	pt_BR

Arquivos deste item

Nome:: R - D - ABDUL MOHAMAD KADRI ...
Tamanho:: 9.496Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Dissertações [239]

Mostrar registro simples