???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/7946
Full metadata record
DC FieldValueLanguage
dc.creatorRocha, Thiago Marques-
dc.creator.Latteshttp://lattes.cnpq.br/2186173819661694por
dc.contributor.advisor1Carvalho, André Luiz da Costa-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4863447798119856por
dc.contributor.referee1Colonna, Juan Gabriel-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9535853909210803por
dc.contributor.referee2Giusti, Rafael-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/0613781010575440por
dc.contributor.referee3Marinho, Leandro Balby-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/3728312501032061por
dc.date.issued2020-08-31-
dc.identifier.citationROCHA, Thiago Marques. Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda. 2020. 129 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.por
dc.identifier.urihttps://tede.ufam.edu.br/handle/tede/7946-
dc.description.resumoEm ambientes de desenvolvimento de software em larga escala, os relatórios de defeitos são mantidos por meio de sistemas de rastreamento de problemas e analisados por especialistas de domínio. Nesses sistemas, os usuários podem criar relatórios de defeitos de maneira despadronizada, ou seja, cada usuário pode relatar um problema específico com um conjunto exclusivo de palavras. Portanto, relatórios diferentes podem descrever o mesmo problema, gerando duplicação. Para evitar tarefas redundantes para a equipe de desenvolvimento, um especialista precisa examinar todos os novos relatórios enquanto rotula possíveis duplicatas. No entanto, essa abordagem não é trivial, nem escalável e impacta diretamente o tempo de correção dos defeitos. Esforços recentes para detectar relatórios de defeitos duplicados tendem a se concentrar em abordagens que utilizam redes neurais profundas que consideram as informações híbridas dos relatórios como recursos textuais e categóricos. Entretanto, essas abordagens ignoram que um único relatório pode ter várias duplicatas identificadas anteriormente e, portanto, várias descrições textuais, títulos e informações categóricas. Neste trabalho, propusemos o SiameseQAT, um método para detecção de relatórios de defeitos duplicados que considera não apenas informações sobre relatórios individuais, mas também informações coletivas de grupos de defeitos. O SiameseQAT combina aprendizado contextual e semântico com recursos textuais e categóricos, além de recursos baseados em extração de tópicos, utilizando a Quintet Loss uma nova função de perda introduzida por este trabalho, que considera o centroide de grupos duplicados e suas informações contextuais. Validamos nossa abordagem nos repositórios de software de código aberto Eclipse, Netbeans e Open Office, que incluem mais de 500 mil relatórios de defeitos. Avaliamos a recuperação e a classificação de duplicatas, relatando uma média de Recall@25 de 71% para recuperação e 99% de AUROC para tarefas de classificação, resultados superiores aos apresentados por trabalhos relacionados.por
dc.description.abstractIn large-scale software development environments, defect reports are maintained through bug tracking systems and analyzed by domain experts. Since different users may create bug reports in a non-standard manner, each user can report a particular problem with a unique set of words. Therefore, different reports may describe the same problem, generating duplication. In order to avoid redundant tasks for the development team, an expert needs to look at all new reports while trying to label possible duplicates. However, this approach is neither trivial nor scalable and has a direct impact on bug fix correction time. Recent efforts to find duplicate bug reports tend to focus on deep neural approaches that consider hybrid information from bug reports as textual and categorical features. However, these approaches ignore that a single bug can have multiple previously identified duplicates and, therefore, multiple textual descriptions, titles, and categorical information. In this work, we propose SiameseQAT, a duplicate bug report detection method that considers not only information on individual bugs, but also collective information from bug clusters. The SiameseQAT combines context and semantic learning on textual and categorical features, as also topic-based features, with a novel loss function called Quintet Loss, which considers the centroid of duplicate clusters and their contextual information. We validated our approach on the well-known open-source software repositories Eclipse, Netbeans, and Open Office, that comprises more than 500 thousand bug reports. We evaluated both retrieval and classification of duplicates, reporting a Recall@25 mean of 71% for retrieval, and 99% AUROC for classification tasks, results that were significantly superior to related works.eng
dc.formatapplication/pdf*
dc.thumbnail.urlhttps://tede.ufam.edu.br//retrieve/41010/Disserta%c3%a7%c3%a3o_ThiagoMarques_PPGI.pdf.jpg*
dc.languageporpor
dc.publisherUniversidade Federal do Amazonaspor
dc.publisher.departmentInstituto de Computaçãopor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFAMpor
dc.publisher.programPrograma de Pós-graduação em Informáticapor
dc.rightsAcesso Abertopor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/-
dc.subjectAprendizagem profunda - Computaçãopor
dc.subjectAprendizado do computadorpor
dc.subjectSistemas de rastreamento de problemaspor
dc.subjectQuintet Losseng
dc.subjectRelatórios de defeitos duplicadospor
dc.subject.cnpqCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOpor
dc.titleUma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profundapor
dc.typeDissertaçãopor
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-7903-6705por
dc.creator.orcidhttps://orcid.org/0000-0001-5083-2989por
dc.contributor.referee2orcidhttps://orcid.org/0000-0002-1288-7126por
dc.subject.userRelatórios de defeito duplicadopor
dc.subject.userAprendizagem profundapor
dc.subject.userRedes neurais profundaspor
dc.subject.userAprendizagem semântica baseada em contextopor
dc.subject.userFunção de perdapor
dc.subject.userQuintetopor
dc.subject.userTercetopor
dc.subject.userMecanismo de atençãopor
dc.subject.userBERTpor
dc.subject.userMLPpor
dc.subject.userLDApor
dc.subject.userModelagem em tópicospor
Appears in Collections:Mestrado em Informática

Files in This Item:
File Description SizeFormat 
Dissertação_ThiagoMarques_PPGI.pdfDissertação_ThiagoMarques_PPGI2.68 MBAdobe PDFThumbnail

Download/Open Preview


This item is licensed under a Creative Commons License Creative Commons