Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/7439

Full metadata record

DC Field	Value	Language
dc.creator	Silveira, Denys Dionísio Bezerra	-
dc.creator.Lattes	http://lattes.cnpq.br/0002624116190554	por
dc.contributor.advisor1	Cristo, Marco Antônio Pinheiro de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6261175351521953	por
dc.contributor.advisor-co1	Carvalho, André Luiz da Costa	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/4863447798119856	por
dc.contributor.referee1	Colonna, Juan Gabriel	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/9535853909210803	por
dc.contributor.referee2	Pappa, Gisele Lobo	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/5936682335701497	por
dc.contributor.referee3	Carvalho, André Luiz da Costa	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/4863447798119856	por
dc.date.issued	2018-12-11	-
dc.identifier.citation	SILVEIRA, Denys Dionísio Bezerra. Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas. 2018. 115 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2018.	por
dc.identifier.uri	https://tede.ufam.edu.br/handle/tede/7439	-
dc.description.resumo	Modelos probabilísticos de tópicos são modelos estatísticos capazes de identificar tópicos em uma coleção de texto. Eles são amplamente aplicados em tarefas relacionadas à área de Processamento de Linguagem Natural, uma vez que capturam com sucesso relações latentes por meio da análise de dados não rotulados. Entretanto, soluções analíticas para a inferência Bayesiana desses modelos são geralmente intratáveis, dificultando a proposta de modelos probabilísticos que sejam mais expressivos. Neste cenário, os Autocodificadores Variacionais (ACVs), métodos que empregam uma rede de inferência baseada em redes neurais responsável por estimar a distribuição a posteriori, tornaram-se uma alternativa promissora para inferir distribuições de tópicos em coleções de texto. Estes modelos, contudo, também introduzem novos desafios, tal como a necessidade de distribuições contínuas e reparametrizáveis que podem não se ajustar às distribuições reais dos tópicos. Além disso, redes de inferência tendem a apresentar um problema conhecido como colapso de componentes, onde apenas alguns tópicos contendo poucos termos correlacionados são efetivamente extraídos. Para tentar evitar estes problemas, propõem-se dois novos métodos de tópicos. O primeiro (GSDTM) é baseado em uma distribuição contínua pseudocategórica denominada Gumbel-Softmax, capaz de gerar amostras aproximadamente categóricas, enquanto o segundo (LMDTM) adota uma mistura de distribuições Normais-logísticas, que pode ser adequada em cenários onde a distribuição dos dados é complexa. Apresenta-se também um estudo sobre o impacto que diferentes escolhas de modelagem têm sobre os tópicos gerados, observando um compromisso entre coerência dos tópicos e a qualidade do modelo gerador. Por meio de experimentos usando duas coleções de dados de referência, três métricas distintas de avaliação quantitativa e uma inspeção qualitativa, mostra-se que o modelo GSDTM supera de forma significativa os modelos de tópicos considerados estado da arte em grande parte dos cenários de teste, em termos de coerência média de tópicos e perplexidade.	por
dc.description.abstract	Probabilistic topic models are statistical models which are able to identify topics on textual data. They are widely applied in many tasks related to Natural Language Processing due to their effective use of unlabeled data to capture latent relations. Analytical solutions for Bayesian inference of such models, however, are usually intractable, hindering the proposition of highly expressive text models. In this scenario, Variational Auto-Encoders (VAEs), where an artificial neural-based inference network is used to approximate the posterior distribution, became a promising alternative for inferring latent topic distributions of text documents. These models, however, also pose new challenges such as the requirement of continuous and reparameterizable distributions which may not fit so well the true latent topic distributions. Moreover, inference networks are prone to a well-known problem called component collapsing, where a little number of topics are effectively retrieved. To overcome these problems, we propose two new text topic models. The first (GSDTM) is based on the pseudo-categorical continuous distribution called Gumbel-Softmax which is able to generate categorical-like samples, while the second (LMDTM) adopts a mixture of Normal-Logistic distributions which can fits well in scenarios where the data distribution is complex. We also provide a study on the impact of different modeling choices on the generated topics, observing a trade-off between topic coherence and generative model quality. Through experiments using two reference datasets, three different quantitative metrics and one qualitative inspection, we show that GSDTM largely outperforms previous state-of-the-art baselines in most of scenarios, when considering average topic coherence and perplexity.	eng
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico	por
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	por
dc.description.sponsorship	FAPEAM - Fundação de Amparo à Pesquisa do Estado do Amazonas	por
dc.format	application/pdf	*
dc.thumbnail.url	https://tede.ufam.edu.br//retrieve/34482/Disserta%c3%a7%c3%a3o_DenysSilveiraPPGI.jpg	*
dc.language	por	por
dc.publisher	Universidade Federal do Amazonas	por
dc.publisher.department	Instituto de Computação	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFAM	por
dc.publisher.program	Programa de Pós-graduação em Informática	por
dc.rights	Acesso Aberto	por
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	-
dc.subject	Redes neurais (Computação)	por
dc.subject	Teoria bayesiana de decisão estatística	por
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA	por
dc.subject.cnpq	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO	por
dc.title	Modelos de Tópicos baseados em Autocodificadores Variacionais utilizando as distribuições Gumbel-Softmax e mistura de Normais-Logísticas	por
dc.type	Dissertação	por
dc.subject.user	Modelos de Tópicos	por
dc.subject.user	Autocodificadores Variacionais	por
dc.subject.user	Inferência Bayesiana	por
dc.subject.user	Aprendizagem Profunda	por
Appears in Collections:	Mestrado em Informática

Files in This Item:

File	Description	Size	Format
Dissertação_DenysSilveiraPPGI		7.2 MB	Adobe PDF	Download/Open Preview ×

Show simple item record Recommend this item

This item is licensed under a Creative Commons License

Universidade Federal do Amazonas