???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/7914
Full metadata record
DC FieldValueLanguage
dc.creatorSilva, Sheila da Nóbrega-
dc.creator.Latteshttp://lattes.cnpq.br/4773539555154519por
dc.contributor.advisor1Moura, Edleno Silva de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4737852130924504por
dc.contributor.referee1Calado, Pável Pereira-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/1126314445760059por
dc.contributor.referee2Marinho, Leandro Balby-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3728312501032061por
dc.contributor.referee3Rosa, Thierson Couto-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/4414718560764818por
dc.contributor.referee4Silva, Altigran Soares da-
dc.contributor.referee4Latteshttp://lattes.cnpq.br/3405503472010994por
dc.date.issued2020-07-30-
dc.identifier.citationSILVA, Sheila da Nóbrega. Applying machine learning to relevance evidence fusion at indexing time. 2020. 106 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.por
dc.identifier.urihttps://tede.ufam.edu.br/handle/tede/7914-
dc.description.resumoThe production of high quality ranking results is the main goal of web search engines. An important aspect of modern search engines is the use of a large number of distinct sources of relevance evidence to build the learning to rank (L2R) model. Collectively, they determine whether the document is relevant to a query or not. The ranking of query results is computed by fusing all sources of evidence into a single document score, for each document in the final ranking. In the past few decades, most of the works on evidence fusion has been done with the implementation of L2R methods. L2R methods use examples of queries and their respective results to train supervised learning models that determine the relative position of the documents in the result list. Once trained, the model can be used during query processing to determine the final ranking. This approach, however, inadvertently adds computational costs to query processing, which may lead to a drop in time performance. To mitigate this problem, an alternative approach was proposed in literature — Learn to Precompute Evidence Fusion (LePrEF), based on supervised learning techniques with GP (Genetic Programming). LePrEF proposes to implement the bulk of the evidence fusion during indexing time, generating a single inverted index containing unified entries representing all sources of evidence. These unified entries are called Unified Term Impacts (UTIs). Each unified term impact replaces several features with a single value in the document index, thereby reducing the effort to compute the document scores at query processing time because the system fetches and processes fewer values. The adoption of UTI values produces competitive ranking results. However, the lack of features available only at query time might lead to accuracy loss. In this dissertation we study and propose a modified LambdaMART, named UTI-LambdaMART, a gradient boosting algorithm to generate unified term impacts (UTI) values at indexing time. We also propose and evaluate a hybrid model that uses UTI values with query-dependent features. We demonstrate that our hybrid methods can deliver high-quality results on par with those of the existing state-of-the-art neural ranking models. The experimental results show that our best hybrid model, HLambdaMART, achieves an NDCG@10 value of 0.495 using only 36 features at query processing time when applied to the MQ2007 collection, while the best baseline achieves 0.490 using a larger set of features at query processing time. The use of our hybrid framework reduces the time to run LambdaMART to about 35% of the time to run it without using our proposals. In addition, we study and propose a simple method to obtain significant gains in UTI-index compression with virtually no loss in the quality of search results. Our approach was able to achieve 79% compression rate of the index, while keeping the quality of results on par with methods that do not use compression. We also conduct experiments that demonstrate the use of the UTI-LambdaMART as a base ranker.por
dc.description.abstractO principal objetivo das máquinas de busca é produzir resultados de ranking de alta qualidade. Um aspecto importante das máquinas de busca modernas é o uso de um grande número de distintas fontes de evidência de relevância para construir um modelo de learning to rank (L2R). Essas evidências coletivamente ajudam a estimar se o documento é relevante ou não para a consulta. O ranking com os resultados da consulta é calculado por meio da fusão de todas as fontes de evidência em um único score do documento, para cada documento que compõe o ranking final. Nas últimas décadas vários trabalhos sobre fusão de evidências tem sido feito com a implementação de métodos de L2R. Os métodos de L2R usam exemplos de consultas com os seus respectivos resultados para treinar modelos de aprendizagem supervisionada que determinam a posição relativa do documento na lista final de resultados. Uma vez treinado, o modelo pode ser usado durante o processamento da consulta para determinar o ranking final. Esta abordagem, entretanto, inadvertidamente adiciona custos computacionais para o processamento da consulta, o que pode levar a uma queda no desempenho do tempo de processamento. Para mitigar este problema, foi proposto na literatura uma abordagem alternativa - Learning to Precompute Evidence Fusion (LePrEF), baseada em uma técnica de aprendizagem supervisionada com PG (Programação Genética). O modelo LePrEF propõe implementar a fusão de um conjunto de evidências em tempo de indexação, gerando um único índice invertido contendo entradas unificadas representando todas as fontes de evidências. Esses termos unificados são chamados de Unified Term Impacts (UTIs). Cada UTI substitui vários atributos por um único valor no índice de documentos, reduzindo assim o esforço para calcular os scores dos documentos em tempo de processamento da consulta porque o sistema busca e processa menos valores. A adoção de valores de UTI produz resultados de ranking competitivos. Entretanto, a ausência dos atributos que não estão disponíveis em tempo de consulta pode levar a uma perda de acurácia. Nesta tese estudamos e propomos uma modificação no LambdaMART, que passamos a chamar de UTI-LambdaMART, um algorítimo de gradiente boosting para gerar valores unificados de impactos do termo em tempo de indexação. Também, propomos e avaliamos um modelo híbrido que utiliza valores de UTI com atributos dependentes da consulta. Demonstramos que o nosso método híbrido por entregar resultados com alta qualidade, equivalente aos modelos neurais atuais estado da arte. Os resultados dos experimentos mostram que o nosso melhor modelo híbrido, HLambdaMART,alcança um NDCG@10 igual 0,495 usando apenas 36 atributos em tempo de processamento da consulta, enquanto o melhor baseline alcança 0,490 usando um conjunto maior de atributos em tempo de processamento da consulta. O uso do nosso framework híbrido reduz o tempo de execução do LambdaMART em cerca de 35% do tempo que seria executá-lo sem a nossa proposta. Adicionalmente, estudamos e propomos um método simples para obter ganhos significativos na compressão do índice de UTI sem perda na qualidade dos resultados das buscas. Nossa abordagem foi capaz de alcançar 79% de taxa de compressão do índice, enquanto manteve a qualidade dos resultados equivalentes aos métodos que não usam compressão. Conduzimos também experimentos demonstrando o uso do UTI-LambdaMART como um base ranker.por
dc.formatapplication/pdf*
dc.thumbnail.urlhttps://tede.ufam.edu.br//retrieve/40470/Tese_SheiladaN%c3%b3brega_PPGI.pdf.jpg*
dc.languageporpor
dc.publisherUniversidade Federal do Amazonaspor
dc.publisher.departmentInstituto de Computaçãopor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFAMpor
dc.publisher.programPrograma de Pós-graduação em Informáticapor
dc.rightsAcesso Abertopor
dc.subjectIndexaçãopor
dc.subjectGenetic Programmingeng
dc.subjectRecuperação de dados (Computação)por
dc.subjectRecuperação da informaçãopor
dc.subjectLearn to Precompute Evidence Fusioneng
dc.subject.cnpqCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOpor
dc.titleApplying machine learning to relevance evidence fusion at indexing timepor
dc.title.alternativeAplicando o aprendizado de máquina à fusão de evidências de relevância no momento da indexaçãopor
dc.typeTesepor
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-7860-9575por
dc.creator.orcidhttps://orcid.org/0000-0003-3282-1447por
dc.subject.userInformation Retrievaleng
dc.subject.userLearning to Rankeng
dc.subject.userIndexingeng
dc.subject.userMachine Learningeng
dc.subject.userLambdaMARTeng
Appears in Collections:Doutorado em Informática

Files in This Item:
File Description SizeFormat 
Tese_SheiladaNóbrega_PPGI.pdfTese_SheiladaNóbrega_PPGI1.47 MBAdobe PDFThumbnail

Download/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.