@MASTERSTHESIS{ 2018:472664464, title = {Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas}, year = {2018}, url = "https://tede.ufam.edu.br/handle/tede/7439", abstract = "Modelos probabilísticos de tópicos são modelos estatísticos capazes de identificar tópicos em uma coleção de texto. Eles são amplamente aplicados em tarefas relacionadas à área de Processamento de Linguagem Natural, uma vez que capturam com sucesso relações latentes por meio da análise de dados não rotulados. Entretanto, soluções analíticas para a inferência Bayesiana desses modelos são geralmente intratáveis, dificultando a proposta de modelos probabilísticos que sejam mais expressivos. Neste cenário, os Autocodificadores Variacionais (ACVs), métodos que empregam uma rede de inferência baseada em redes neurais responsável por estimar a distribuição a posteriori, tornaram-se uma alternativa promissora para inferir distribuições de tópicos em coleções de texto. Estes modelos, contudo, também introduzem novos desafios, tal como a necessidade de distribuições contínuas e reparametrizáveis que podem não se ajustar às distribuições reais dos tópicos. Além disso, redes de inferência tendem a apresentar um problema conhecido como colapso de componentes, onde apenas alguns tópicos contendo poucos termos correlacionados são efetivamente extraídos. Para tentar evitar estes problemas, propõem-se dois novos métodos de tópicos. O primeiro (GSDTM) é baseado em uma distribuição contínua pseudocategórica denominada Gumbel-Softmax, capaz de gerar amostras aproximadamente categóricas, enquanto o segundo (LMDTM) adota uma mistura de distribuições Normais-logísticas, que pode ser adequada em cenários onde a distribuição dos dados é complexa. Apresenta-se também um estudo sobre o impacto que diferentes escolhas de modelagem têm sobre os tópicos gerados, observando um compromisso entre coerência dos tópicos e a qualidade do modelo gerador. Por meio de experimentos usando duas coleções de dados de referência, três métricas distintas de avaliação quantitativa e uma inspeção qualitativa, mostra-se que o modelo GSDTM supera de forma significativa os modelos de tópicos considerados estado da arte em grande parte dos cenários de teste, em termos de coerência média de tópicos e perplexidade.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de Pós-graduação em Informática}, note = {Instituto de Computação} }