???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/11426
???metadata.dc.type???: Dissertação
Title: Reconhecendo gêneros musicais brasileiros similares por abordagem baseada em segmentos e aprendizado profundo usando transformadores visuais
Other Titles: Recognizing similar Brazilian music genres using a segment-based deep learning approach with vision transformers
???metadata.dc.creator???: Guimarães, Victória de Souza Leon 
???metadata.dc.contributor.advisor1???: Rodrigues, Rosiane de Freitas
First advisor-co: Kienen, João Gustavo
???metadata.dc.contributor.referee1???: Santos, Eulanda Miranda dos
???metadata.dc.contributor.referee2???: Silva Junior, Waldir Sabino da
???metadata.dc.contributor.referee3???: Silva, Diego Furtado
???metadata.dc.description.resumo???: Esta pesquisa investiga o uso de mecanismos de autoatenção em arquiteturas de transformadores visuais, com foco no modelo Vision transformer (ViT), para o reconhecimento e análise de similaridade entre gêneros musicais. O estudo envolve a construção do BYRM Dataset, uma base curada de músicas regionais brasileiras composta por 1.082 faixas distribuídas em dez gêneros culturalmente diversos, extraídas automaticamente a partir de álbuns no YouTube. A base permite experimentos controlados com múltiplos trechos por faixa, variando tanto a posição temporal quanto a duração dos segmentos. O modelo ViT foi treinado com espectrogramas de Mel como entrada e avaliado por meio de métricas como acurácia, precisão, revocação e f1-score. A melhor configuração alcançou 81,94% de acurácia e 81,84% de f1-score. Além da classificação, esta dissertação também propõe uma análise da representação vetorial aprendida pelo modelo, aplicando técnicas de redução de dimensionalidade (PCA, t-SNE e UMAP) e medidas quantitativas de similaridade, como a distância cosseno, para investigar a proximidade entre gêneros no espaço latente. Os resultados indicam que o ViT é capaz de capturar relações estilísticas relevantes, agrupando gêneros semelhantes como samba e pagode, ou vaneira e xote gaúcho, ao mesmo tempo em que separa estilos mais distintos, como o rock brasileiro. Este trabalho contribui para a área de Recuperação de Informação Musical (MIR), demonstrando o potencial de modelos baseados em atenção na classificação e interpretação de gêneros musicais em contextos ricos e diversos culturalmente.
Abstract: This research investigates the use of self-attention mechanisms in visual transformer architectures, focusing on the Vision Transformer (ViT) model for musical genre recognition and similarity analysis. The study involves the construction of the BYRM Dataset, a curated collection of Brazilian regional music comprising 1.082 tracks across ten culturally diverse genres, automatically extracted from YouTube album videos. The dataset supports controlled experiments using multiple excerpts per track, varying both the temporal position and the segment duration. The ViT model was trained using Melspectrograms as input and evaluated with metrics such as accuracy, precision, recall, and F1-score. The best configuration achieved 81,94% accuracy and 81,84% F1-score. Beyond classification, this dissertation also proposes an analysis of the vector representations learned by the model, applying dimensionality reduction techniques (PCA, t-SNE,and UMAP) and quantitative similarity measures, such as cosine distance, to investigate the proximity between genres in the latent space. Results indicate that ViT successfully captures meaningful stylistic relationships, grouping similar genres such as samba and pagode or vaneira and xote gaúcho. This work contributes to the field of Music Information Retrieval (MIR), demonstrating the potential of attention-based models in the classification and interpretation of musical genres in culturally rich and diverse contexts.
Keywords: Sistemas de recuperação da informação - Música
Aprendizado do computador
Classificação - Música
???metadata.dc.subject.cnpq???: CIENCIAS EXATAS E DA TERRA: CIENCIA DA COMPUTACAO
???metadata.dc.subject.user???: Recuperação de informação musical
Aprendizado profundo
Redes de transformadores
Espectrograma
Análise temporal
Similaridade entre gêneros musicais
Redução de dimensionalidade
Música brasileira
Music information retrieval
Deep learning
Transformer networks
Spectrogram
Temporal analysis
Genre similarity
Dimensionality reduction
Brazilian music
Language: por
???metadata.dc.publisher.country???: Brasil
Publisher: Universidade Federal do Amazonas
???metadata.dc.publisher.initials???: UFAM
???metadata.dc.publisher.department???: Instituto de Computação
???metadata.dc.publisher.program???: Programa de Pós-graduação em Informática
Citation: GUIMARÃES, Victória de Souza Leon. Reconhecendo gêneros musicais brasileiros similares por abordagem baseada em segmentos e aprendizado profundo usando transformadores visuais. 2025. 98 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2025.
???metadata.dc.rights???: Acesso Aberto
???metadata.dc.rights.uri???: https://creativecommons.org/licenses/by-nc-nd/4.0/
URI: https://tede.ufam.edu.br/handle/tede/11426
Issue Date: 10-Sep-2025
Appears in Collections:Mestrado em Informática

Files in This Item:
File Description SizeFormat 
DISS_VGuimarães_PPGI.pdf10.29 MBAdobe PDFDownload/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.