Use este identificador para citar ou linkar para este item: http://repositorio.ifg.edu.br:8080/handle/prefix/330
Tipo: Dissertação-extra-ifg
Título: Evolutionary risk-sensitive feature selection for learning to rank
Título(s) alternativo(s): Seleção evolutiva de recursos sensíveis ao risco para aprender a classificar
Autor(es): Sousa, Daniel Xavier de
Primeiro Orientador: Gonçalves, Marcos André
metadata.dc.contributor.advisor-co1: Rosa, Thierson Couto
metadata.dc.contributor.referee1: Gonçalves, Marcos André
metadata.dc.contributor.referee2: Rosa, Thierson Couto
metadata.dc.contributor.referee3: Pappa, Gisele Lobo
metadata.dc.contributor.referee4: Santos, Rodrigo Luis Teodoro
metadata.dc.contributor.referee5: Moura, Edleno Silva de
Resumo: Aprendizado de Ranqueamento (AR) é uma das principais linhas de pesquisa em Recuper- ação de Informação contudo, com o crescente aumento de dados e complexos algoritmos de aprendizado de máquina, o esforço para processar todas as subtarefas em AR tem crescido enormemente. Mais especificamente, após um algoritmo de ordenação fornecer um imenso subconjunto de documentos (às vezes gigabytes), existe um extenso trabalho na fase de AR para gerar novas meta-atributos no ato de execução da consulta e para executar algoritmos considerados estado da arte de aprendizado de máquina. Nesse contexto, a seleção de atrib- utos (SA) tem se tornado importante alternativa para eliminar atributos não relevantes, pois, além de melhorar o tempo de execução dos AR, criando menos meta-atributos em tempo de execução da consulta e usando menos meta-atributos nos algoritmos de aprendizado de máquina para construir o modelo de ranqueamento, a SA também pode melhorar a efetivi- dade com a ausência de atributos ruidosos e redundantes. Por anos, porém, a literatura tem focado principalmente em efetividade e redução de atributos como os principais critérios objetivos para SA, no entanto, ao remover certos atrib- utos pode se deteriorar a efetividade de modelos de aprendizado para algumas importantes e específicas consultas. De fato, nós temos notado, em nosso trabalho a otimização de somente a efetividade média como métrica pode deteriorar a acurácia de algumas consultas, enquanto melhora somente as consultas que são de mais alta performance. Dessa forma, nesta tese nós propomos avaliar SA para AR com um objetivo adicional em mente, conhecido por sensibilidade ao risco, que em linhas gerais permite avaliar a ro- bustez do modelo, garantindo boa efetividade entre as consultas e minimizando a perda de efetividade em consultas quando comparado a outros modelos de ranqueamento. Nós apre- sentamos novos objetivos uni e multicritério para otimizar SA, efetividade e sensibilidade ao risco, algumas vezes ao mesmo tempo. Para obter nossas metas, consideramos distintas medidas de sensibilidade ao risco, tais como F RISK , T RISK , e G RISK 1 . Como resultado dessa atuação, mostramos que sensibilidade ao risco é um critério objetivo crucial em SA para AR, promovendo, inclusive, resultados melhores do que quando usamos a efetividade como critério objetivo. Isso porque, diferente do valor médio utilizado para comparação, a sensi- bilidade ao risco avalia todas as consultas em relação a um ou a vários outros métodos de Recuperação de Informação, provendo mais rigor na comparação entre dois subconjuntos de atributos. No intuito de avaliar nossa proposta de critérios objetivos para SA em AR, tam- bém propomos uma nova metodologia para explorar o espaço de busca com diversos obje- tivos, sugerindo extensões efetivas e eficientes do já bem conhecido algoritmo evolucionário SPEA2. Por efetividade, aplicamos uma comparação mais rigorosa para o conjunto de atrib- utos, usando um teste estatístico pareado para aumentar a confiança no relacionamento de dominância. Por eficiência, introduzimos um algoritmo de aprendizado fraco como uma caixa-preta para melhorar a avaliação das diversas interações dos conjuntos de atributos nos procedimentos baseados em wrapper. Apesar de parecer contra intuitivo, conseguimos apri- morarotempodeexecuçãoeacomparaçãodosatributosdeformamaisacurada, melhorando a efetividade na seleção final do indivíduo para critérios multiobjectivos. Nossos resultados experimentais mostram que a proposta multiobjetivo aperfeiçoa os métodos de SA estado da arte, considerando a combinação de efetividade e sensibilidade ao risco. Por exemplo, na coleção WEB10K conseguimos manter a efetividade e sensibilidade aorisco, reduzindoematé35%dosatributos. Ainda, nósmostramosfortesevidênciasquanto ao benefício de usarmos aprendizado fraco como uma caixa-preta e a melhoria na seleção final do indivíduo a partir da Fronteira de Pareto, através do uso do teste pareado. Nesta tese, fornecemos, ademais, uma ampla análise da nossa metodologia e de seus impactos na redução de atributos, sensibilidade ao risco e efetividade em SA para AR.
Abstract: Learning to Rank (L2R) is one of the main research lines in Information Retrieval. How- ever with ever increasing data and more complex machine learning algorithms, the effort to process all sub-tasks in L2R has increased tremendously. More specifically, after a ranking algorithm provides a huge subset (sometimes gigabytes) of documents from query terms, there is an extensive work of L2R phase to generate meta-features on the fly and to process the time consuming state-of-the-art machine learning algorithms. In this context, feature selection (FS) becomes an important alternative to withdraw unimportant features. Besides improving the overall L2R execution time, FS can also try to improve the effectiveness with the absence of noisy and redundant features. However, for years the literature has focused mostly on effectiveness and feature re- duction as the main objective criteria for Feature Selection. But removing certain features may damage the effectiveness of the learned model for some specific but important queries. In fact, we have noted in our work that by optimizing only an average effectiveness and number of features as criteria in FS for L2R one can deteriorate the ranking effectiveness of some queries, providing less robust models. Therefore, in this dissertation we propose to evaluate FS for L2R with an additional objective in mind, named risk-sensitiveness. We introduce the risk-sensitiveness to the FS for L2R, providing novel single and multi-objective criteria to optimize feature reduction, effectiveness and risk-sensitiveness, sometimes at the same time. To achieve our goal, we consider distinct risk-sensitive measures, such as F RISK , T RISK , and G RISK . As results of this front, we show that risk-sensitiveness is a crucial objective criterion in FS for L2R, providing still better results than the effectiveness criterion. Mainly because more than an average value, risk-sensitiveness assesses the comparison of several queries against one or a set of Information Retrieval baselines, providing a larger comparison of two subsets of features. In order to evaluate our new objective criteria for FS in L2R, we also propose a new methodology to explore the multi-objective search space, suggesting effective and efficient extensions of wrapper and a well-known Pareto Frontier algorithm, e.g. Strength Pareto EvolutionaryAlgorithm(SPEA2). Byeffective, wemeanamorestrictcomparisonforsetsof features, using a paired statistical test to increase the strength of the dominance relationship in the Pareto set. In case of the efficient extensions, we introduce a weak learner as a black- box in order to improve the evaluation of the wrapper strategy. Besides decreasing the time performance, this proposal also provides a more accurate comparison of features, improving the effectiveness of the final individual for the evolutionary process. Our experimental results show that the proposal objective criteria outperforms the state-of-the-art FS methods concerning effective and risk-sensitive evaluation. For instance, for WEB10K dataset we allow a feature reduction of up 35% with same effective and risk- sensitive performance. Moreover, we show that the risk-sensitiveness criterion provided results more effective and robust than using only effectiveness. We show strong evidence towards the benefits of using weak learner as a black-box and the improvements of selecting the final individual from the Pareto set by using the paired statistical test. In this dissertation we also provide a thorough analysis of our methodology and its impact on feature reduction, risk-sensitiveness and effectiveness on FS for L2R.
Palavras-chave: computação
recuperação de informação
aprendizado de ranqueamento
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
metadata.dc.publisher.program: Doutorado em Ciência da Computação
Citação: (SOUSA, 2018)
Tipo de Acesso: Acesso Aberto
URI: http://repositorio.ifg.edu.br/handle/prefix/330
Data do documento: 8-Out-2018
Aparece nas coleções:Teses e Dissertações defendidas extra IFG

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
tese_Daniel Xavier de Sousa.pdf1,43 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.