Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/7946

???metadata.dc.type???:	Dissertação
Title:	Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda
???metadata.dc.creator???:	Rocha, Thiago Marques
???metadata.dc.contributor.advisor1???:	Carvalho, André Luiz da Costa
???metadata.dc.contributor.referee1???:	Colonna, Juan Gabriel
???metadata.dc.contributor.referee2???:	Giusti, Rafael
???metadata.dc.contributor.referee3???:	Marinho, Leandro Balby
???metadata.dc.description.resumo???:	Em ambientes de desenvolvimento de software em larga escala, os relatórios de defeitos são mantidos por meio de sistemas de rastreamento de problemas e analisados por especialistas de domínio. Nesses sistemas, os usuários podem criar relatórios de defeitos de maneira despadronizada, ou seja, cada usuário pode relatar um problema específico com um conjunto exclusivo de palavras. Portanto, relatórios diferentes podem descrever o mesmo problema, gerando duplicação. Para evitar tarefas redundantes para a equipe de desenvolvimento, um especialista precisa examinar todos os novos relatórios enquanto rotula possíveis duplicatas. No entanto, essa abordagem não é trivial, nem escalável e impacta diretamente o tempo de correção dos defeitos. Esforços recentes para detectar relatórios de defeitos duplicados tendem a se concentrar em abordagens que utilizam redes neurais profundas que consideram as informações híbridas dos relatórios como recursos textuais e categóricos. Entretanto, essas abordagens ignoram que um único relatório pode ter várias duplicatas identificadas anteriormente e, portanto, várias descrições textuais, títulos e informações categóricas. Neste trabalho, propusemos o SiameseQAT, um método para detecção de relatórios de defeitos duplicados que considera não apenas informações sobre relatórios individuais, mas também informações coletivas de grupos de defeitos. O SiameseQAT combina aprendizado contextual e semântico com recursos textuais e categóricos, além de recursos baseados em extração de tópicos, utilizando a Quintet Loss uma nova função de perda introduzida por este trabalho, que considera o centroide de grupos duplicados e suas informações contextuais. Validamos nossa abordagem nos repositórios de software de código aberto Eclipse, Netbeans e Open Office, que incluem mais de 500 mil relatórios de defeitos. Avaliamos a recuperação e a classificação de duplicatas, relatando uma média de Recall@25 de 71% para recuperação e 99% de AUROC para tarefas de classificação, resultados superiores aos apresentados por trabalhos relacionados.
Abstract:	In large-scale software development environments, defect reports are maintained through bug tracking systems and analyzed by domain experts. Since different users may create bug reports in a non-standard manner, each user can report a particular problem with a unique set of words. Therefore, different reports may describe the same problem, generating duplication. In order to avoid redundant tasks for the development team, an expert needs to look at all new reports while trying to label possible duplicates. However, this approach is neither trivial nor scalable and has a direct impact on bug fix correction time. Recent efforts to find duplicate bug reports tend to focus on deep neural approaches that consider hybrid information from bug reports as textual and categorical features. However, these approaches ignore that a single bug can have multiple previously identified duplicates and, therefore, multiple textual descriptions, titles, and categorical information. In this work, we propose SiameseQAT, a duplicate bug report detection method that considers not only information on individual bugs, but also collective information from bug clusters. The SiameseQAT combines context and semantic learning on textual and categorical features, as also topic-based features, with a novel loss function called Quintet Loss, which considers the centroid of duplicate clusters and their contextual information. We validated our approach on the well-known open-source software repositories Eclipse, Netbeans, and Open Office, that comprises more than 500 thousand bug reports. We evaluated both retrieval and classification of duplicates, reporting a Recall@25 mean of 71% for retrieval, and 99% AUROC for classification tasks, results that were significantly superior to related works.
Keywords:	Aprendizagem profunda - Computação Aprendizado do computador Sistemas de rastreamento de problemas Quintet Loss Relatórios de defeitos duplicados
???metadata.dc.subject.cnpq???:	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
???metadata.dc.subject.user???:	Relatórios de defeito duplicado Aprendizagem profunda Redes neurais profundas Aprendizagem semântica baseada em contexto Função de perda Quinteto Terceto Mecanismo de atenção BERT MLP LDA Modelagem em tópicos
Language:	por
???metadata.dc.publisher.country???:	Brasil
Publisher:	Universidade Federal do Amazonas
???metadata.dc.publisher.initials???:	UFAM
???metadata.dc.publisher.department???:	Instituto de Computação
???metadata.dc.publisher.program???:	Programa de Pós-graduação em Informática
Citation:	ROCHA, Thiago Marques. Uma abordagem para detectar relatórios de defeitos duplicados baseada em aprendizagem profunda. 2020. 129 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.
???metadata.dc.rights???:	Acesso Aberto
???metadata.dc.rights.uri???:	http://creativecommons.org/licenses/by/4.0/
URI:	https://tede.ufam.edu.br/handle/tede/7946
Issue Date:	31-Aug-2020
Appears in Collections:	Mestrado em Informática

Files in This Item:

File	Description	Size	Format
Dissertação_ThiagoMarques_PPGI.pdf	Dissertação_ThiagoMarques_PPGI	2.68 MB	Adobe PDF	Download/Open Preview ×

Show full item record Recommend this item

This item is licensed under a Creative Commons License

Universidade Federal do Amazonas