@MASTERSTHESIS{ 2017:1599605298, title = {Uma abordagem para seleção de tópicos relevantes em redes sociais online}, year = {2017}, url = "https://tede.ufam.edu.br/handle/tede/7232", abstract = "O crescente uso das redes sociais fez com que a quantidade de informações que são compartilhadas diariamente (opiniões pessoais, notícias e eventos do tipo natural ou social) aumentasse, tornando estas redes uma fonte de informaç cãoo sobre eventos. No Brasil, acontecimentos recentes, como a Operação Lava Jato conduzida pela polícia Federal e o processo de impeachment da Presidente são exemplos de eventos que geraram repercussões nos meios de comunicação. Esses fatos marcantes, podem ser utilizados para caracterizar quais são os acontecimentos relevantes de um determinado evento. Nas redes sociais, esses acontecimentos geram discussões, compartilhamentos e novas notícias, onde informações relevantes acabam tendo mais repercussões. Contudo, processar uma elevada massa de dados a fim de eliminar ruídos e reconhecer informações torna-se muito custoso. Neste contexto, este trabalho tem como objetivo demonstrar uma abordagem para caracterização de informações relevantes de eventos, através da extração de tópicos em dados compartilhados no Twitter, onde avaliamos o desempenho de três métodos de aprendizagem de máquina (K-means, Latent Dirichlet Allocation - LDA e Non-Negative Matrix Factorization - NMF) usados para extrair tópicos sobre as bases de dados da Operação Lava Jato e do processo de impeachment da presidente do Brasil em duas arquiteturas de pré-processamento diferentes (tradicional e com reconhecimento de entidade), demonstrando que é possível utilizar uma rede social como fonte de dados para descobrir os tópicos relevantes através do sensoriamento de usuários que observam um evento. Em nossos experimentos, observamos que as técnicas de pré-processamento têm influência direta sobre o resultado da extração de tópicos. Além disso, observamos que a técnica Silhouette nos ajudou a encontrar o melhor valor de clusters para uma determinada amostra de dados. Nos resultados o NMF apresentou o melhor desempenho nas duas bases de dados, tanto na tarefa de extração de tópicos quanto no tempo de execução.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de Pós-graduação em Informática}, note = {Instituto de Computação} }