???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/11342
Full metadata record
DC FieldValueLanguage
dc.creatorSilva, Marcus Fabio Santos da-
dc.creator.Latteshttp://lattes.cnpq.br/1314224962508504eng
dc.contributor.advisor1Silva Junior, Waldir Sabino da-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2925380715531711eng
dc.contributor.advisor2Biscainho, Luiz Wagner Pereira-
dc.contributor.advisor2Latteshttp://lattes.cnpq.br/1765239890846505eng
dc.contributor.referee1Ayres Junior, Florindo Antonio de Carvalho-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/1919442364965261eng
dc.contributor.referee2Araujo, Gabriel Matos-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/4461794616207452eng
dc.date.issued2025-10-15-
dc.identifier.citationSILVA, Marcus Fabio Santos da. Estimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucional. 2025. 91 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal do Amazonas, Manaus (AM), 2025.eng
dc.identifier.urihttps://tede.ufam.edu.br/handle/tede/11342-
dc.description.resumoPitch é a percepção auditiva da altura de um som, relacionada principalmente à sua frequência fundamental. A estimativa de pitch em áudio musical é uma tarefa desafiadora no campo da recuperação de informação musical (MIR). Determinar com precisão a frequência fundamental (F0) das notas musicais é crucial para várias aplicações, incluindo transcrição musical, extração de melodia e análise de áudio. O problema é complicado por fatores como polifonia, ruído de fundo e variações no timbre e na dinâmica. Métodos tradicionais para estimativa de pitch, enfrentando essas complexidades, muitas vezes produzem resultados imprecisos ou pouco confiáveis. Recentes avanços no aprendizado profundo, particularmente o uso de redes neurais convolucionais (CNNs), têm se mostrado promissores na resolução desses desafios. As CNNs são capazes de aprender representações hierárquicas a partir de dados de áudio brutos, capturando efetivamente as características temporais e espectrais essenciais para uma estimativa de pitch precisa. Este trabalho explora o problema da estimativa de múltiplos pitches em áudio musical. Discutimos as inovações na arquitetura do modelo CREPE e estratégias de treinamento que tornam o modelo capaz de estimar múltiplos pitches. Os resultados demonstraram desempenho robusto em diferentes situações. Em conjuntos de validação com múltiplas frequências, o novo modelo proposto apresentou valores elevados de RPA, com média global próxima de 0,93, evidenciando sua capacidade de identificar corretamente pitches simultâneos.eng
dc.description.abstractPitch is the auditory perception of the height of a sound, primarily related to its fundamental frequency. Pitch estimation in musical audio is a fundamental yet challenging task in the field of music information retrieval (MIR). Accurately determining the fundamental frequency (F0) of musical notes is crucial for various applications, including music transcription, melody extraction, and audio analysis. The problem is complicated by factors such as polyphony, background noise, and variations in timbre and dynamics. Traditional methods for estimating pitch, when dealing with these complexities, often produce inaccurate or unreliable results. Recent improvements in deep learning, especially using convolutional neural networks (CNNs), have shown potential in tackling these challenges. CNNs are capable of learning hierarchical representations from raw audio data, effectively capturing the temporal and spectral features essential for accurate pitch estimation. This work explores the problem of multi-pitch estimation in musical audio, highlighting the inherent challenges and the current state-of-the-art solutions using CNNs. We discussed the innovations in the CREPE model architecture and the training strategies that enable the model to estimate multiple pitches. The results demonstrated robust performance in different scenarios. In validation sets with multiple frequencies, the newly proposed model achieved high RPA values, with an overall average close to 0,93, highlighting its ability to correctly identify simultaneous pitches.eng
dc.formatapplication/pdf*
dc.thumbnail.urlhttps://tede.ufam.edu.br/retrieve/89857/DISS_MarcusSilva_PPGEE.jpg*
dc.languageporeng
dc.publisherUniversidade Federal do Amazonaseng
dc.publisher.departmentFaculdade de Tecnologiaeng
dc.publisher.countryBrasileng
dc.publisher.initialsUFAMeng
dc.publisher.programPrograma de Pós-graduação em Engenharia Elétricaeng
dc.rightsAcesso Aberto-
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subject.cnpqENGENHARIASeng
dc.titleEstimação de Múltiplos Pitches em Áudio Musical Polifônico Utilizando Rede Neural Convolucionaleng
dc.title.alternativeMulti Pitch Estimation in Polyphonic Music Audio Using Convolutional Neural Networkeng
dc.typeDissertaçãoeng
dc.subject.userRecuperação de informação musicalpor
dc.subject.userRede neuralpor
dc.subject.userPitchpor
Appears in Collections:Mestrado em Engenharia Elétrica

Files in This Item:
File Description SizeFormat 
DISS_MarcusSilva_PPGEE 6.37 MBAdobe PDFThumbnail

Download/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.