| ???jsp.display-item.social.title??? |
|
Please use this identifier to cite or link to this item:
https://tede.ufam.edu.br/handle/tede/11342| ???metadata.dc.type???: | Dissertação |
| Title: | Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional |
| Other Titles: | Multi Pitch Estimation in Polyphonic Music Audio Using Convolutional Neural Network |
| ???metadata.dc.creator???: | Silva, Marcus Fabio Santos da ![]() |
| ???metadata.dc.contributor.advisor1???: | Silva Junior, Waldir Sabino da |
| ???metadata.dc.contributor.advisor2???: | Biscainho, Luiz Wagner Pereira |
| ???metadata.dc.contributor.referee1???: | Ayres Junior, Florindo Antonio de Carvalho |
| ???metadata.dc.contributor.referee2???: | Araujo, Gabriel Matos |
| ???metadata.dc.description.resumo???: | Pitch é a percepção auditiva da altura de um som, relacionada principalmente à sua frequência fundamental. A estimativa de pitch em áudio musical é uma tarefa desafiadora no campo da recuperação de informação musical (MIR). Determinar com precisão a frequência fundamental (F0) das notas musicais é crucial para várias aplicações, incluindo transcrição musical, extração de melodia e análise de áudio. O problema é complicado por fatores como polifonia, ruído de fundo e variações no timbre e na dinâmica. Métodos tradicionais para estimativa de pitch, enfrentando essas complexidades, muitas vezes produzem resultados imprecisos ou pouco confiáveis. Recentes avanços no aprendizado profundo, particularmente o uso de redes neurais convolucionais (CNNs), têm se mostrado promissores na resolução desses desafios. As CNNs são capazes de aprender representações hierárquicas a partir de dados de áudio brutos, capturando efetivamente as características temporais e espectrais essenciais para uma estimativa de pitch precisa. Este trabalho explora o problema da estimativa de múltiplos pitches em áudio musical. Discutimos as inovações na arquitetura do modelo CREPE e estratégias de treinamento que tornam o modelo capaz de estimar múltiplos pitches. Os resultados demonstraram desempenho robusto em diferentes situações. Em conjuntos de validação com múltiplas frequências, o novo modelo proposto apresentou valores elevados de RPA, com média global próxima de 0,93, evidenciando sua capacidade de identificar corretamente pitches simultâneos. |
| Abstract: | Pitch is the auditory perception of the height of a sound, primarily related to its fundamental frequency. Pitch estimation in musical audio is a fundamental yet challenging task in the field of music information retrieval (MIR). Accurately determining the fundamental frequency (F0) of musical notes is crucial for various applications, including music transcription, melody extraction, and audio analysis. The problem is complicated by factors such as polyphony, background noise, and variations in timbre and dynamics. Traditional methods for estimating pitch, when dealing with these complexities, often produce inaccurate or unreliable results. Recent improvements in deep learning, especially using convolutional neural networks (CNNs), have shown potential in tackling these challenges. CNNs are capable of learning hierarchical representations from raw audio data, effectively capturing the temporal and spectral features essential for accurate pitch estimation. This work explores the problem of multi-pitch estimation in musical audio, highlighting the inherent challenges and the current state-of-the-art solutions using CNNs. We discussed the innovations in the CREPE model architecture and the training strategies that enable the model to estimate multiple pitches. The results demonstrated robust performance in different scenarios. In validation sets with multiple frequencies, the newly proposed model achieved high RPA values, with an overall average close to 0,93, highlighting its ability to correctly identify simultaneous pitches. |
| ???metadata.dc.subject.cnpq???: | ENGENHARIAS |
| ???metadata.dc.subject.user???: | Recuperação de informação musical Rede neural Pitch |
| Language: | por |
| ???metadata.dc.publisher.country???: | Brasil |
| Publisher: | Universidade Federal do Amazonas |
| ???metadata.dc.publisher.initials???: | UFAM |
| ???metadata.dc.publisher.department???: | Faculdade de Tecnologia |
| ???metadata.dc.publisher.program???: | Programa de Pós-graduação em Engenharia Elétrica |
| Citation: | SILVA, Marcus Fabio Santos da. Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional. 2025. 91 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2025. |
| ???metadata.dc.rights???: | Acesso Aberto |
| ???metadata.dc.rights.uri???: | https://creativecommons.org/licenses/by-nc-nd/4.0/ |
| URI: | https://tede.ufam.edu.br/handle/tede/11342 |
| Issue Date: | 15-Oct-2025 |
| Appears in Collections: | Mestrado em Engenharia Elétrica |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| DISS_MarcusSilva_PPGEE | 6.37 MB | Adobe PDF | ![]() Download/Open Preview |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.


