@MASTERSTHESIS{ 2020:812495775, title = {Uma abordagem para detectar relat?rios de defeitos duplicados baseada em aprendizagem profunda}, year = {2020}, url = "https://tede.ufam.edu.br/handle/tede/7946", abstract = "Em ambientes de desenvolvimento de software em larga escala, os relat?rios de defeitos s?o mantidos por meio de sistemas de rastreamento de problemas e analisados por especialistas de dom?nio. Nesses sistemas, os usu?rios podem criar relat?rios de defeitos de maneira despadronizada, ou seja, cada usu?rio pode relatar um problema espec?fico com um conjunto exclusivo de palavras. Portanto, relat?rios diferentes podem descrever o mesmo problema, gerando duplica??o. Para evitar tarefas redundantes para a equipe de desenvolvimento, um especialista precisa examinar todos os novos relat?rios enquanto rotula poss?veis duplicatas. No entanto, essa abordagem n?o ? trivial, nem escal?vel e impacta diretamente o tempo de corre??o dos defeitos. Esfor?os recentes para detectar relat?rios de defeitos duplicados tendem a se concentrar em abordagens que utilizam redes neurais profundas que consideram as informa??es h?bridas dos relat?rios como recursos textuais e categ?ricos. Entretanto, essas abordagens ignoram que um ?nico relat?rio pode ter v?rias duplicatas identificadas anteriormente e, portanto, v?rias descri??es textuais, t?tulos e informa??es categ?ricas. Neste trabalho, propusemos o SiameseQAT, um m?todo para detec??o de relat?rios de defeitos duplicados que considera n?o apenas informa??es sobre relat?rios individuais, mas tamb?m informa??es coletivas de grupos de defeitos. O SiameseQAT combina aprendizado contextual e sem?ntico com recursos textuais e categ?ricos, al?m de recursos baseados em extra??o de t?picos, utilizando a Quintet Loss uma nova fun??o de perda introduzida por este trabalho, que considera o centroide de grupos duplicados e suas informa??es contextuais. Validamos nossa abordagem nos reposit?rios de software de c?digo aberto Eclipse, Netbeans e Open Office, que incluem mais de 500 mil relat?rios de defeitos. Avaliamos a recupera??o e a classifica??o de duplicatas, relatando uma m?dia de Recall@25 de 71% para recupera??o e 99% de AUROC para tarefas de classifica??o, resultados superiores aos apresentados por trabalhos relacionados.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de P?s-gradua??o em Inform?tica}, note = {Instituto de Computa??o} }