• Entrar
    Ver item 
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016058P1 Programa de Pós-Graduação em Gestão da Informação
    • Teses
    • Ver item
    •   Página inicial
    • BIBLIOTECA DIGITAL: Teses & Dissertações
    • 40001016058P1 Programa de Pós-Graduação em Gestão da Informação
    • Teses
    • Ver item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Análise textual de letras de músicas brasileiras aplicando métodos de bioinformática e de mineração de textos

    Thumbnail
    Visualizar/Abrir
    R - T - IRAPURU HARUO FLORIDO.pdf (9.242Mb)
    Data
    2025
    Autor
    Flórido, Irapuru Haruo
    Metadata
    Mostrar registro completo
    Resumo
    Resumo: A expansão dos serviços de streaming ampliou o acervo musical, tornando impraticável a classificação manual de atributos como gênero, instrumentação e sentimento devido ao volume de dados. No entanto, essa caracterização detalhada é indispensável para a eficácia dos sistemas de recomendação musical e da recuperação de informação musical, áreas fundamentais no cenário digital atual. Este estudo propôs o método de Análise Textual em Músicas Brasileiras (ATMBr), uma metodologia para a recuperação de informações musicais e a identificação automática de rótulos. O diferencial desta pesquisa foi a seleção e a aplicação de um algoritmo de bioinformática, o SWeeP, em conjunto com algoritmos de mineração de texto e de aprendizagem de máquina. A escolha do SWeeP se justifica por sua característica intrínseca de baixo custo computacional, permitindo o processamento massivo de dados textuais sequenciais com eficiência e velocidade de 10 a 100 vezes superiores às dos métodos tradicionais de alinhamento. A metodologia ATMBr envolve a realização de experimentos utilizando um corpus de letras de músicas brasileiras extraído de sítios de letras. A amostra original bruta do corpora continha 138 mil títulos musicais. Após um processo intenso de pré-processamento, cura e normalização dos dados, o método aplica o algoritmo SWeeP para gerar representações vetoriais (embeddings) detalhadas das letras. O objetivo foi desenvolver modelos robustos para a classificação textual de músicas. Como contribuições, a pesquisa apresenta a proposição do método ATMBr e a disponibilização de uma nova base de dados de músicas brasileiras, curada e rotulada, que servirá como recurso valioso para pesquisas futuras. O experimento resultou na criação da plataforma Ritmo Brasil, um ambiente de consulta e pesquisa voltado a músicos e apreciadores da música popular brasileira. O método proposto gerou modelos de classificação para a análise de sentimentos e para o mapeamento de gêneros musicais. A validação demonstrou que a estratégia híbrida de classificação alcançou desempenho superior, com 92% de acurácia na classificação de emoções básicas (Alegria, Tristeza, Raiva e Medo). Além disso, o método comprovou ser capaz de recuperar, de forma não supervisionada, a estrutura hierárquica e a genealogia dos gêneros musicais a partir do conteúdo semântico das letras. O estudo, de natureza interdisciplinar (Computação, Arte e Biologia), reforça a importância de explorar novas tecnologias para lidar com o volume exponencial de dados na ciência da informação, especialmente no contexto musical brasileiro
     
    Abstract: The expansion of streaming services has broadened the musical repertoire, making manual classification of attributes such as genre, instrumentation, and sentiment impractical due to the volume of data. However, this detailed characterization is indispensable for the effectiveness of music recommendation systems and music information retrieval, crucial areas in the current digital landscape. This study proposed Análise Textual em Músicas Brasileiras (ATMBr), a methodology for retrieving musical information and automatically identifying labels. The distinguishing feature of this research was the selection and application of the bioinformatics algorithm SWeeP, in conjunction with text-mining and machine-learning algorithms. The choice of SWeeP is justified by its low computational cost, which enables efficient processing of sequential textual data at 10-100 times the speed of traditional alignment methods. The ATMBr methodology involves conducting experiments using a corpus of Brazilian song lyrics extracted from lyric websites. The original raw corpus contained 138,000 musical titles. After preprocessing, curation, and data normalization, the method applies the SWeeP algorithm to generate detailed vector representations (embeddings) of the lyrics. The objective was to develop robust models for classifying songs. As contributions, the research presents the proposed ATMBr method and a new, curated, labeled database of Brazilian songs, which will serve as a valuable resource for future research. The experiment led to the creation of the Ritmo Brasil platform, a consultation and research environment for musicians and enthusiasts of Brazilian popular music. The proposed method generated classification models for sentiment analysis and the mapping of musical genres. Validation demonstrated that the hybrid classification strategy achieved superior performance, with 90.5% accuracy in classifying basic emotions (Joy, Sadness, Anger, and Fear). Furthermore, the method proved capable of unsupervised recovery of the hierarchical structure and genealogy of musical genres from the lyrics' semantic content. This interdisciplinary study (Computer Science, Art, and Biology) underscores the importance of exploring recent technologies to manage the exponential volume of data in information science, particularly in the Brazilian musical context
     
    URI
    https://hdl.handle.net/1884/100371
    Collections
    • Teses [37]

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV
     

     

    Navegar

    Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosTipoEsta coleçãoPor data do documentoAutoresTítulosAssuntosTipo

    Minha conta

    EntrarCadastro

    Estatística

    Ver as estatísticas de uso

    DSpace software copyright © 2002-2022  LYRASIS
    Entre em contato | Deixe sua opinião
    Theme by 
    Atmire NV