Análise textual de letras de músicas brasileiras aplicando métodos de bioinformática e de mineração de textos

Flórido, Irapuru Haruo

dc.contributor.advisor	Pinto, José Simão de Paula, 1963-	pt_BR
dc.contributor.other	Raittz, Roberto Tadeu, 1966-	pt_BR
dc.contributor.other	Silva, Ronan Assumpção	pt_BR
dc.contributor.other	Marchaukoski, Jeroniza Nunes, 1973-	pt_BR
dc.contributor.other	Lemos Júnior, Wilson	pt_BR
dc.contributor.other	Universidade Federal do Paraná. Setor de Ciências Sociais Aplicadas. Programa de Pós-Graduação em Gestão da Informação	pt_BR
dc.creator	Flórido, Irapuru Haruo	pt_BR
dc.date.accessioned	2026-01-19T15:00:25Z
dc.date.available	2026-01-19T15:00:25Z
dc.date.issued	2025	pt_BR
dc.identifier.uri	https://hdl.handle.net/1884/100371
dc.description	Orientador: : Prof. Dr. José Simão de Paula Pinto	pt_BR
dc.description	Coorientador: Prof. Dr. Roberto Tadeu Raittz	pt_BR
dc.description	Banca: José Simão de Paula Pinto (Presidente da Banca), Ronan Assumpção Silva, Jeroniza Nunes Marchaukoski, Wilson Lemos Junior	pt_BR
dc.description	Tese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Sociais Aplicadas, Programa de Pós-Graduação em Gestão da Informação. Defesa : Curitiba, 12/12/2025	pt_BR
dc.description	Inclui referências	pt_BR
dc.description.abstract	Resumo: A expansão dos serviços de streaming ampliou o acervo musical, tornando impraticável a classificação manual de atributos como gênero, instrumentação e sentimento devido ao volume de dados. No entanto, essa caracterização detalhada é indispensável para a eficácia dos sistemas de recomendação musical e da recuperação de informação musical, áreas fundamentais no cenário digital atual. Este estudo propôs o método de Análise Textual em Músicas Brasileiras (ATMBr), uma metodologia para a recuperação de informações musicais e a identificação automática de rótulos. O diferencial desta pesquisa foi a seleção e a aplicação de um algoritmo de bioinformática, o SWeeP, em conjunto com algoritmos de mineração de texto e de aprendizagem de máquina. A escolha do SWeeP se justifica por sua característica intrínseca de baixo custo computacional, permitindo o processamento massivo de dados textuais sequenciais com eficiência e velocidade de 10 a 100 vezes superiores às dos métodos tradicionais de alinhamento. A metodologia ATMBr envolve a realização de experimentos utilizando um corpus de letras de músicas brasileiras extraído de sítios de letras. A amostra original bruta do corpora continha 138 mil títulos musicais. Após um processo intenso de pré-processamento, cura e normalização dos dados, o método aplica o algoritmo SWeeP para gerar representações vetoriais (embeddings) detalhadas das letras. O objetivo foi desenvolver modelos robustos para a classificação textual de músicas. Como contribuições, a pesquisa apresenta a proposição do método ATMBr e a disponibilização de uma nova base de dados de músicas brasileiras, curada e rotulada, que servirá como recurso valioso para pesquisas futuras. O experimento resultou na criação da plataforma Ritmo Brasil, um ambiente de consulta e pesquisa voltado a músicos e apreciadores da música popular brasileira. O método proposto gerou modelos de classificação para a análise de sentimentos e para o mapeamento de gêneros musicais. A validação demonstrou que a estratégia híbrida de classificação alcançou desempenho superior, com 92% de acurácia na classificação de emoções básicas (Alegria, Tristeza, Raiva e Medo). Além disso, o método comprovou ser capaz de recuperar, de forma não supervisionada, a estrutura hierárquica e a genealogia dos gêneros musicais a partir do conteúdo semântico das letras. O estudo, de natureza interdisciplinar (Computação, Arte e Biologia), reforça a importância de explorar novas tecnologias para lidar com o volume exponencial de dados na ciência da informação, especialmente no contexto musical brasileiro	pt_BR
dc.description.abstract	Abstract: The expansion of streaming services has broadened the musical repertoire, making manual classification of attributes such as genre, instrumentation, and sentiment impractical due to the volume of data. However, this detailed characterization is indispensable for the effectiveness of music recommendation systems and music information retrieval, crucial areas in the current digital landscape. This study proposed Análise Textual em Músicas Brasileiras (ATMBr), a methodology for retrieving musical information and automatically identifying labels. The distinguishing feature of this research was the selection and application of the bioinformatics algorithm SWeeP, in conjunction with text-mining and machine-learning algorithms. The choice of SWeeP is justified by its low computational cost, which enables efficient processing of sequential textual data at 10-100 times the speed of traditional alignment methods. The ATMBr methodology involves conducting experiments using a corpus of Brazilian song lyrics extracted from lyric websites. The original raw corpus contained 138,000 musical titles. After preprocessing, curation, and data normalization, the method applies the SWeeP algorithm to generate detailed vector representations (embeddings) of the lyrics. The objective was to develop robust models for classifying songs. As contributions, the research presents the proposed ATMBr method and a new, curated, labeled database of Brazilian songs, which will serve as a valuable resource for future research. The experiment led to the creation of the Ritmo Brasil platform, a consultation and research environment for musicians and enthusiasts of Brazilian popular music. The proposed method generated classification models for sentiment analysis and the mapping of musical genres. Validation demonstrated that the hybrid classification strategy achieved superior performance, with 90.5% accuracy in classifying basic emotions (Joy, Sadness, Anger, and Fear). Furthermore, the method proved capable of unsupervised recovery of the hierarchical structure and genealogy of musical genres from the lyrics' semantic content. This interdisciplinary study (Computer Science, Art, and Biology) underscores the importance of exploring recent technologies to manage the exponential volume of data in information science, particularly in the Brazilian musical context	pt_BR
dc.format.extent	1 recurso online : PDF.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language	Português	pt_BR
dc.subject	Gerenciamento da informação	pt_BR
dc.subject	Música	pt_BR
dc.subject	Bioinformática	pt_BR
dc.subject	Mineração de dados (Computação)	pt_BR
dc.subject	Ciência da Informação	pt_BR
dc.title	Análise textual de letras de músicas brasileiras aplicando métodos de bioinformática e de mineração de textos	pt_BR
dc.type	Tese Digital	pt_BR

Arquivos deste item

Nome:: R - T - IRAPURU HARUO FLORIDO.pdf
Tamanho:: 9.242Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Teses [37]

Mostrar registro simples