Removing DUST using multiple alignment of sequences

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/6557

Full metadata record

DC Field	Value	Language
dc.creator	Rodrigues, Kaio Wagner Lima	-
dc.creator.Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4228711E9	por
dc.contributor.advisor1	Cristo, Marco Antônio Pinheiro de	-
dc.contributor.advisor1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706469E6	por
dc.contributor.referee1	Cristo, Marco Antônio Pinheiro de	-
dc.contributor.referee1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706469E6	por
dc.contributor.referee2	Santos, Eulanda Miranda dos	-
dc.contributor.referee2Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766289H3	por
dc.contributor.referee3	Barreto, Raimundo da Silva	-
dc.contributor.referee3Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766577H8	por
dc.contributor.referee4	Veloso, Adriano Alonso	-
dc.contributor.referee4Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4762232P7	por
dc.contributor.referee5	Gonçalves, Claudine Santos Badue	-
dc.contributor.referee5Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4761073H7	por
dc.date.issued	2016-09-21	-
dc.identifier.citation	RODRIGUES, Kaio Wagner Lima. Removing DUST using multiple alignment of sequences. 2016. 91 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2016.	por
dc.identifier.uri	https://tede.ufam.edu.br/handle/tede/6557	-
dc.description.resumo	Um grande número de URLs obtidas por coletores corresponde a páginas com conteúdo duplicado ou quase duplicado, conhecidas em Inglês pelo acrônimo DUST, que pode ser traduzido como Diferentes URLs com Texto Similar. DUST são prejudiciais para sistemas de busca porque ao serem coletadas, armazenadas e utilizadas, contribuem para o desperdício de recursos, a criação de rankings de baixa qualidade e, consequentemente, uma experiência pior para o usuário. Para lidar com este problema, muita pesquisa tem sido realizada com intuito de detectar e remover DUST antes mesmo de coletar as URLs. Para isso, esses métodos se baseiam no aprendizado de regras de normalização que transformam todas as URLs com conteúdo duplicado para uma mesma forma canônica. Tais regras podem ser então usadas por coletores com o intuito de reconhecer e ignorar DUST. Para isto, é necessário derivar, de forma eficiente, um conjunto mínimo de regras que alcance uma grande taxa de redução com baixa incidência de falsos-positivos. Como a maioria dos métodos propostos na literatura é baseada na análise de pares, a qualidade das regras é afetada pelo critério usado para selecionar os exemplos de pares e a disponibilidade de exemplos representativos no treino. Para evitar processar um número muito alto de exemplos, em geral, são aplicadas técnicas de amostragem ou a busca por DUST é limitada apenas a sites, o que impede a geração de regras que envolvam diferentes nomes de DNS. Como consequência, métodos atuais são muito suscetíveis a ruído e, em muitos casos, derivam regras muito específicas. Nesta tese, é proposta uma nova técnica para derivar regras, baseada em uma estratégia de alinhamento múltiplo de sequências. Em particular, mostramos que um alinhamento prévio das URLs com conteúdo duplicado contribui para uma melhor generalização, o que resulta na geração de regras mais efetivas. Através de experimentos em duas diferentes coleções extraídas da Web, observa-se que a técnica proposta, além de ser mais rápida, filtra um número maior de URLs duplicadas. Uma versão distribuída do método, baseada na arquitetura MapReduce, proporciona a possibilidade de escalabilidade para coleções com dimensões compatíveis com a Web.	por
dc.description.abstract	A large number of URLs collected by web crawlers correspond to pages with duplicate or near-duplicate contents. These duplicate URLs, generically known as DUST (Different URLs with Similar Text), adversely impact search engines since crawling, storing and using such data imply waste of resources, the building of low quality rankings and poor user experiences. To deal with this problem, several studies have been proposed to detect and remove duplicate documents without fetching their contents. To accomplish this, the proposed methods learn normalization rules to transform all duplicate URLs into the same canonical form. This information can be used by crawlers to avoid fetching DUST. A challenging aspect of this strategy is to efficiently derive the minimum set of rules that achieve larger reductions with the smallest false positive rate. As most methods are based on pairwise analysis, the quality of the rules is affected by the criterion used to select the examples and the availability of representative examples in the training sets. To avoid processing large numbers of URLs, they employ techniques such as random sampling or by looking for DUST only within sites, preventing the generation of rules involving multiple DNS names. As a consequence of these issues, current methods are very susceptible to noise and, in many cases, derive rules that are very specific. In this thesis, we present a new approach to derive quality rules that take advantage of a multi-sequence alignment strategy. We demonstrate that a full multi-sequence alignment of URLs with duplicated content, before the generation of the rules, can lead to the deployment of very effective rules. Experimental results demonstrate that our approach achieved larger reductions in the number of duplicate URLs than our best baseline in two different web collections, in spite of being much faster. We also present a distributed version of our method, using the MapReduce framework, and demonstrate its scalability by evaluating it using a set of 7.37 million URLs.	eng
dc.description.sponsorship	FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas	por
dc.format	image/jpeg	*
dc.format	application/pdf	*
dc.thumbnail.url	https://tede.ufam.edu.br//retrieve/23302/Tese_Kaio%20Rodrigues.jpg	*
dc.language	eng	por
dc.publisher	Universidade Federal do Amazonas	por
dc.publisher.department	Instituto de Computação	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFAM	por
dc.publisher.program	Programa de Pós-graduação em Informática	por
dc.rights	Acesso Aberto	por
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	-
dc.subject	Search engines	eng
dc.subject	Crawling	eng
dc.subject	De-duplication	eng
dc.subject	URL Normalization	eng
dc.subject	Rewrite rules	eng
dc.subject	Motores de busca	por
dc.subject	Eliminação de Duplicatas	por
dc.subject	Normalização de URLs	por
dc.subject	Regras de Reescrita	por
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO	por
dc.title	Removing DUST using multiple alignment of sequences	por
dc.type	Tese	por
Appears in Collections:	Doutorado em Informática

Files in This Item:

File	Description	Size	Format
Tese_Kaio Rodrigues		3.53 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

This item is licensed under a Creative Commons License

Universidade Federal do Amazonas