@PHDTHESIS{ 2016:188223499, title = {Removing DUST using multiple alignment of sequences}, year = {2016}, url = "https://tede.ufam.edu.br/handle/tede/6557", abstract = "Um grande n?mero de URLs obtidas por coletores corresponde a p?ginas com conte?do duplicado ou quase duplicado, conhecidas em Ingl?s pelo acr?nimo DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST s?o prejudiciais para sistemas de busca porque ao serem coletadas, armazenadas e utilizadas, contribuem para o desperd?cio de recursos, a cria??o de rankings de baixa qualidade e, consequentemente, uma experi?ncia pior para o usu?rio. Para lidar com este problema, muita pesquisa tem sido realizada com intuito de detectar e remover DUST antes mesmo de coletar as URLs. Para isso, esses m?todos se baseiam no aprendizado de regras de normaliza??o que transformam todas as URLs com conte?do duplicado para uma mesma forma can?nica. Tais regras podem ser ent?o usadas por coletores com o intuito de reconhecer e ignorar DUST. Para isto, ? necess?rio derivar, de forma eficiente, um conjunto m?nimo de regras que alcance uma grande taxa de redu??o com baixa incid?ncia de falsos-positivos. Como a maioria dos m?todos propostos na literatura ? baseada na an?lise de pares, a qualidade das regras ? afetada pelo crit?rio usado para selecionar os exemplos de pares e a disponibilidade de exemplos representativos no treino. Para evitar processar um n?mero muito alto de exemplos, em geral, s?o aplicadas t?cnicas de amostragem ou a busca por DUST ? limitada apenas a sites, o que impede a gera??o de regras que envolvam diferentes nomes de DNS. Como consequ?ncia, m?todos atuais s?o muito suscet?veis a ru?do e, em muitos casos, derivam regras muito espec?ficas. Nesta tese, ? proposta uma nova t?cnica para derivar regras, baseada em uma estrat?gia de alinhamento m?ltiplo de sequ?ncias. Em particular, mostramos que um alinhamento pr?vio das URLs com conte?do duplicado contribui para uma melhor generaliza??o, o que resulta na gera??o de regras mais efetivas. Atrav?s de experimentos em duas diferentes cole??es extra?das da Web, observa-se que a t?cnica proposta, al?m de ser mais r?pida, filtra um n?mero maior de URLs duplicadas. Uma vers?o distribu?da do m?todo, baseada na arquitetura MapReduce, proporciona a possibilidade de escalabilidade para cole??es com dimens?es compat?veis com a Web.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de P?s-gradua??o em Inform?tica}, note = {Instituto de Computa??o} }