Applying machine learning to relevance evidence fusion at indexing time

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/7914

Full metadata record

DC Field	Value	Language
dc.creator	Silva, Sheila da Nóbrega	-
dc.creator.Lattes	http://lattes.cnpq.br/4773539555154519	por
dc.contributor.advisor1	Moura, Edleno Silva de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4737852130924504	por
dc.contributor.referee1	Calado, Pável Pereira	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/1126314445760059	por
dc.contributor.referee2	Marinho, Leandro Balby	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/3728312501032061	por
dc.contributor.referee3	Rosa, Thierson Couto	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/4414718560764818	por
dc.contributor.referee4	Silva, Altigran Soares da	-
dc.contributor.referee4Lattes	http://lattes.cnpq.br/3405503472010994	por
dc.date.issued	2020-07-30	-
dc.identifier.citation	SILVA, Sheila da Nóbrega. Applying machine learning to relevance evidence fusion at indexing time. 2020. 106 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.	por
dc.identifier.uri	https://tede.ufam.edu.br/handle/tede/7914	-
dc.description.resumo	The production of high quality ranking results is the main goal of web search engines. An important aspect of modern search engines is the use of a large number of distinct sources of relevance evidence to build the learning to rank (L2R) model. Collectively, they determine whether the document is relevant to a query or not. The ranking of query results is computed by fusing all sources of evidence into a single document score, for each document in the final ranking. In the past few decades, most of the works on evidence fusion has been done with the implementation of L2R methods. L2R methods use examples of queries and their respective results to train supervised learning models that determine the relative position of the documents in the result list. Once trained, the model can be used during query processing to determine the final ranking. This approach, however, inadvertently adds computational costs to query processing, which may lead to a drop in time performance. To mitigate this problem, an alternative approach was proposed in literature — Learn to Precompute Evidence Fusion (LePrEF), based on supervised learning techniques with GP (Genetic Programming). LePrEF proposes to implement the bulk of the evidence fusion during indexing time, generating a single inverted index containing unified entries representing all sources of evidence. These unified entries are called Unified Term Impacts (UTIs). Each unified term impact replaces several features with a single value in the document index, thereby reducing the effort to compute the document scores at query processing time because the system fetches and processes fewer values. The adoption of UTI values produces competitive ranking results. However, the lack of features available only at query time might lead to accuracy loss. In this dissertation we study and propose a modified LambdaMART, named UTI-LambdaMART, a gradient boosting algorithm to generate unified term impacts (UTI) values at indexing time. We also propose and evaluate a hybrid model that uses UTI values with query-dependent features. We demonstrate that our hybrid methods can deliver high-quality results on par with those of the existing state-of-the-art neural ranking models. The experimental results show that our best hybrid model, HLambdaMART, achieves an NDCG@10 value of 0.495 using only 36 features at query processing time when applied to the MQ2007 collection, while the best baseline achieves 0.490 using a larger set of features at query processing time. The use of our hybrid framework reduces the time to run LambdaMART to about 35% of the time to run it without using our proposals. In addition, we study and propose a simple method to obtain significant gains in UTI-index compression with virtually no loss in the quality of search results. Our approach was able to achieve 79% compression rate of the index, while keeping the quality of results on par with methods that do not use compression. We also conduct experiments that demonstrate the use of the UTI-LambdaMART as a base ranker.	por
dc.description.abstract	O principal objetivo das máquinas de busca é produzir resultados de ranking de alta qualidade. Um aspecto importante das máquinas de busca modernas é o uso de um grande número de distintas fontes de evidência de relevância para construir um modelo de learning to rank (L2R). Essas evidências coletivamente ajudam a estimar se o documento é relevante ou não para a consulta. O ranking com os resultados da consulta é calculado por meio da fusão de todas as fontes de evidência em um único score do documento, para cada documento que compõe o ranking final. Nas últimas décadas vários trabalhos sobre fusão de evidências tem sido feito com a implementação de métodos de L2R. Os métodos de L2R usam exemplos de consultas com os seus respectivos resultados para treinar modelos de aprendizagem supervisionada que determinam a posição relativa do documento na lista final de resultados. Uma vez treinado, o modelo pode ser usado durante o processamento da consulta para determinar o ranking final. Esta abordagem, entretanto, inadvertidamente adiciona custos computacionais para o processamento da consulta, o que pode levar a uma queda no desempenho do tempo de processamento. Para mitigar este problema, foi proposto na literatura uma abordagem alternativa - Learning to Precompute Evidence Fusion (LePrEF), baseada em uma técnica de aprendizagem supervisionada com PG (Programação Genética). O modelo LePrEF propõe implementar a fusão de um conjunto de evidências em tempo de indexação, gerando um único índice invertido contendo entradas unificadas representando todas as fontes de evidências. Esses termos unificados são chamados de Unified Term Impacts (UTIs). Cada UTI substitui vários atributos por um único valor no índice de documentos, reduzindo assim o esforço para calcular os scores dos documentos em tempo de processamento da consulta porque o sistema busca e processa menos valores. A adoção de valores de UTI produz resultados de ranking competitivos. Entretanto, a ausência dos atributos que não estão disponíveis em tempo de consulta pode levar a uma perda de acurácia. Nesta tese estudamos e propomos uma modificação no LambdaMART, que passamos a chamar de UTI-LambdaMART, um algorítimo de gradiente boosting para gerar valores unificados de impactos do termo em tempo de indexação. Também, propomos e avaliamos um modelo híbrido que utiliza valores de UTI com atributos dependentes da consulta. Demonstramos que o nosso método híbrido por entregar resultados com alta qualidade, equivalente aos modelos neurais atuais estado da arte. Os resultados dos experimentos mostram que o nosso melhor modelo híbrido, HLambdaMART,alcança um NDCG@10 igual 0,495 usando apenas 36 atributos em tempo de processamento da consulta, enquanto o melhor baseline alcança 0,490 usando um conjunto maior de atributos em tempo de processamento da consulta. O uso do nosso framework híbrido reduz o tempo de execução do LambdaMART em cerca de 35% do tempo que seria executá-lo sem a nossa proposta. Adicionalmente, estudamos e propomos um método simples para obter ganhos significativos na compressão do índice de UTI sem perda na qualidade dos resultados das buscas. Nossa abordagem foi capaz de alcançar 79% de taxa de compressão do índice, enquanto manteve a qualidade dos resultados equivalentes aos métodos que não usam compressão. Conduzimos também experimentos demonstrando o uso do UTI-LambdaMART como um base ranker.	por
dc.format	application/pdf	*
dc.thumbnail.url	https://tede.ufam.edu.br//retrieve/40470/Tese_SheiladaN%c3%b3brega_PPGI.pdf.jpg	*
dc.language	por	por
dc.publisher	Universidade Federal do Amazonas	por
dc.publisher.department	Instituto de Computação	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFAM	por
dc.publisher.program	Programa de Pós-graduação em Informática	por
dc.rights	Acesso Aberto	por
dc.subject	Indexação	por
dc.subject	Genetic Programming	eng
dc.subject	Recuperação de dados (Computação)	por
dc.subject	Recuperação da informação	por
dc.subject	Learn to Precompute Evidence Fusion	eng
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO	por
dc.title	Applying machine learning to relevance evidence fusion at indexing time	por
dc.title.alternative	Aplicando o aprendizado de máquina à fusão de evidências de relevância no momento da indexação	por
dc.type	Tese	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-7860-9575	por
dc.creator.orcid	https://orcid.org/0000-0003-3282-1447	por
dc.subject.user	Information Retrieval	eng
dc.subject.user	Learning to Rank	eng
dc.subject.user	Indexing	eng
dc.subject.user	Machine Learning	eng
dc.subject.user	LambdaMART	eng
Appears in Collections:	Doutorado em Informática

Files in This Item:

File	Description	Size	Format
Tese_SheiladaNóbrega_PPGI.pdf	Tese_SheiladaNóbrega_PPGI	1.47 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

Universidade Federal do Amazonas