Applying machine learning to relevance evidence fusion at indexing time

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/7914

???metadata.dc.type???:	Tese
Title:	Applying machine learning to relevance evidence fusion at indexing time
Other Titles:	Aplicando o aprendizado de máquina à fusão de evidências de relevância no momento da indexação
???metadata.dc.creator???:	Silva, Sheila da Nóbrega
???metadata.dc.contributor.advisor1???:	Moura, Edleno Silva de
???metadata.dc.contributor.referee1???:	Calado, Pável Pereira
???metadata.dc.contributor.referee2???:	Marinho, Leandro Balby
???metadata.dc.contributor.referee3???:	Rosa, Thierson Couto
???metadata.dc.contributor.referee4???:	Silva, Altigran Soares da
???metadata.dc.description.resumo???:	The production of high quality ranking results is the main goal of web search engines. An important aspect of modern search engines is the use of a large number of distinct sources of relevance evidence to build the learning to rank (L2R) model. Collectively, they determine whether the document is relevant to a query or not. The ranking of query results is computed by fusing all sources of evidence into a single document score, for each document in the final ranking. In the past few decades, most of the works on evidence fusion has been done with the implementation of L2R methods. L2R methods use examples of queries and their respective results to train supervised learning models that determine the relative position of the documents in the result list. Once trained, the model can be used during query processing to determine the final ranking. This approach, however, inadvertently adds computational costs to query processing, which may lead to a drop in time performance. To mitigate this problem, an alternative approach was proposed in literature — Learn to Precompute Evidence Fusion (LePrEF), based on supervised learning techniques with GP (Genetic Programming). LePrEF proposes to implement the bulk of the evidence fusion during indexing time, generating a single inverted index containing unified entries representing all sources of evidence. These unified entries are called Unified Term Impacts (UTIs). Each unified term impact replaces several features with a single value in the document index, thereby reducing the effort to compute the document scores at query processing time because the system fetches and processes fewer values. The adoption of UTI values produces competitive ranking results. However, the lack of features available only at query time might lead to accuracy loss. In this dissertation we study and propose a modified LambdaMART, named UTI-LambdaMART, a gradient boosting algorithm to generate unified term impacts (UTI) values at indexing time. We also propose and evaluate a hybrid model that uses UTI values with query-dependent features. We demonstrate that our hybrid methods can deliver high-quality results on par with those of the existing state-of-the-art neural ranking models. The experimental results show that our best hybrid model, HLambdaMART, achieves an NDCG@10 value of 0.495 using only 36 features at query processing time when applied to the MQ2007 collection, while the best baseline achieves 0.490 using a larger set of features at query processing time. The use of our hybrid framework reduces the time to run LambdaMART to about 35% of the time to run it without using our proposals. In addition, we study and propose a simple method to obtain significant gains in UTI-index compression with virtually no loss in the quality of search results. Our approach was able to achieve 79% compression rate of the index, while keeping the quality of results on par with methods that do not use compression. We also conduct experiments that demonstrate the use of the UTI-LambdaMART as a base ranker.
Abstract:	O principal objetivo das máquinas de busca é produzir resultados de ranking de alta qualidade. Um aspecto importante das máquinas de busca modernas é o uso de um grande número de distintas fontes de evidência de relevância para construir um modelo de learning to rank (L2R). Essas evidências coletivamente ajudam a estimar se o documento é relevante ou não para a consulta. O ranking com os resultados da consulta é calculado por meio da fusão de todas as fontes de evidência em um único score do documento, para cada documento que compõe o ranking final. Nas últimas décadas vários trabalhos sobre fusão de evidências tem sido feito com a implementação de métodos de L2R. Os métodos de L2R usam exemplos de consultas com os seus respectivos resultados para treinar modelos de aprendizagem supervisionada que determinam a posição relativa do documento na lista final de resultados. Uma vez treinado, o modelo pode ser usado durante o processamento da consulta para determinar o ranking final. Esta abordagem, entretanto, inadvertidamente adiciona custos computacionais para o processamento da consulta, o que pode levar a uma queda no desempenho do tempo de processamento. Para mitigar este problema, foi proposto na literatura uma abordagem alternativa - Learning to Precompute Evidence Fusion (LePrEF), baseada em uma técnica de aprendizagem supervisionada com PG (Programação Genética). O modelo LePrEF propõe implementar a fusão de um conjunto de evidências em tempo de indexação, gerando um único índice invertido contendo entradas unificadas representando todas as fontes de evidências. Esses termos unificados são chamados de Unified Term Impacts (UTIs). Cada UTI substitui vários atributos por um único valor no índice de documentos, reduzindo assim o esforço para calcular os scores dos documentos em tempo de processamento da consulta porque o sistema busca e processa menos valores. A adoção de valores de UTI produz resultados de ranking competitivos. Entretanto, a ausência dos atributos que não estão disponíveis em tempo de consulta pode levar a uma perda de acurácia. Nesta tese estudamos e propomos uma modificação no LambdaMART, que passamos a chamar de UTI-LambdaMART, um algorítimo de gradiente boosting para gerar valores unificados de impactos do termo em tempo de indexação. Também, propomos e avaliamos um modelo híbrido que utiliza valores de UTI com atributos dependentes da consulta. Demonstramos que o nosso método híbrido por entregar resultados com alta qualidade, equivalente aos modelos neurais atuais estado da arte. Os resultados dos experimentos mostram que o nosso melhor modelo híbrido, HLambdaMART,alcança um NDCG@10 igual 0,495 usando apenas 36 atributos em tempo de processamento da consulta, enquanto o melhor baseline alcança 0,490 usando um conjunto maior de atributos em tempo de processamento da consulta. O uso do nosso framework híbrido reduz o tempo de execução do LambdaMART em cerca de 35% do tempo que seria executá-lo sem a nossa proposta. Adicionalmente, estudamos e propomos um método simples para obter ganhos significativos na compressão do índice de UTI sem perda na qualidade dos resultados das buscas. Nossa abordagem foi capaz de alcançar 79% de taxa de compressão do índice, enquanto manteve a qualidade dos resultados equivalentes aos métodos que não usam compressão. Conduzimos também experimentos demonstrando o uso do UTI-LambdaMART como um base ranker.
Keywords:	Indexação Genetic Programming Recuperação de dados (Computação) Recuperação da informação Learn to Precompute Evidence Fusion
???metadata.dc.subject.cnpq???:	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
???metadata.dc.subject.user???:	Information Retrieval Learning to Rank Indexing Machine Learning LambdaMART
Language:	por
???metadata.dc.publisher.country???:	Brasil
Publisher:	Universidade Federal do Amazonas
???metadata.dc.publisher.initials???:	UFAM
???metadata.dc.publisher.department???:	Instituto de Computação
???metadata.dc.publisher.program???:	Programa de Pós-graduação em Informática
Citation:	SILVA, Sheila da Nóbrega. Applying machine learning to relevance evidence fusion at indexing time. 2020. 106 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.
???metadata.dc.rights???:	Acesso Aberto
URI:	https://tede.ufam.edu.br/handle/tede/7914
Issue Date:	30-Jul-2020
Appears in Collections:	Doutorado em Informática

Files in This Item:

File	Description	Size	Format
Tese_SheiladaNóbrega_PPGI.pdf	Tese_SheiladaNóbrega_PPGI	1.47 MB	Adobe PDF	Download/Open Preview ×

Show full item record Recommend this item

Universidade Federal do Amazonas