Abordagens multimodais com utilização de deep learning e unimodais com aprendizado de máquina no reconhecimento de emoções em músicas
Abstract
Resumo: Esta pesquisa foi realizada com base na compreensão da relevância da relação entre música e emoção na vida humana, abrangendo desde o lazer até estudos científicos. Embora a organização emocional da música seja intrínseca à natureza humana, o reconhecimento automático de emoções musicais enfrenta desafios, configurando-se como um tema complexo na recuperação de informações musicais. Nesse contexto, o propósito central desta tese foi investigar se a adoção de abordagens multimodais, envolvendo informações de diferentes fontes e arquiteturas de deep learning, pode superar o desempenho das abordagens unimodais baseadas em algoritmos de aprendizado de máquina. Essa indagação emergiu da carência de estratégias multimodais na área e da perspectiva de melhoria nos resultados de classificação reportados em pesquisas correlatas. Com cinco objetivos específicos, esta pesquisa abordou a identificação de um modelo cognitivo de emoções, definição de modalidades, construção de bases de dados multimodais, comparação de arquiteturas de deep learning e avaliação comparativa das abordagens multimodais com abordagens unimodais utilizando algoritmos tradicionais de aprendizado de máquina. A análise dos resultados demonstrou que as abordagens multimodais alcançaram desempenho superior em diversos cenários de classificação, comparadas às estratégias unimodais. Tais resultados contribuem positivamente para a compreensão da eficácia das abordagens multimodais e das arquiteturas de deep learning no reconhecimento de emoções em músicas. Adicionalmente, a pesquisa ressalta a necessidade de atenção aos modelos emocionais e metadados em plataformas online, visando evitar vieses e ruídos. Esta tese oferece contribuições relevantes na área de reconhecimento de emoções em músicas, particularmente no desenvolvimento de bases de dados multimodais, avaliação de arquiteturas de deep learning para problemas tabulares, protocolos de experimentos e abordagens voltadas à cognição musical. A comparação sistemática entre abordagens multimodais e unimodais evidencia as vantagens das primeiras, incentivando novas pesquisas nesse campo Abstract: This research was conducted based on the understanding of the significance of the relationship between music and emotion in human life, spanning from leisure to scientific studies. Although the emotional organization of music is intrinsic to human nature, the automatic recognition of musical emotions faces challenges, manifesting as a complex theme in the retrieval of musical information. Within this context, the central purpose of this thesis was to investigate whether the adoption of multimodal approaches, involving information from different sources and deep learning architectures, can outperform unimodal approaches based on machine learning algorithms. This inquiry arose from the lack of multimodal strategies in the field and the prospect of improvement in classification results reported in related research. With five specific objectives, this research addressed the identification of a cognitive model of emotions, definition of modalities, construction of multimodal databases, comparison of deep learning architectures, and comparative evaluation of multimodal approaches with unimodal approaches using traditional machine learning algorithms. The analysis of results demonstrated that multimodal approaches achieved superior performance in various classification scenarios, compared to unimodal strategies. These findings positively contribute to the understanding of the effectiveness of multimodal approaches and deep learning architectures in the recognition of emotions in music. Additionally, the research emphasizes the need for attention to emotional models and metadata in online platforms, aiming to avoid biases and noise. This thesis offers relevant contributions to the field of music emotion recognition, particularly in the development of multimodal databases, evaluation of deep learning architectures for tabular problems, experimental protocols, and approaches focused on musical cognition. The systematic comparison between multimodal and unimodal approaches highlights the advantages of the former, encouraging new research in this field
Collections
- Teses [26]