@MASTERSTHESIS{ 2017:510849589, title = {Uma abordagem para sele??o de t?picos relevantes em redes sociais online}, year = {2017}, url = "https://tede.ufam.edu.br/handle/tede/7232", abstract = "O crescente uso das redes sociais fez com que a quantidade de informa??es que s?o compartilhadas diariamente (opini?es pessoais, not?cias e eventos do tipo natural ou social) aumentasse, tornando estas redes uma fonte de informa? c?oo sobre eventos. No Brasil, acontecimentos recentes, como a Opera??o Lava Jato conduzida pela pol?cia Federal e o processo de impeachment da Presidente s?o exemplos de eventos que geraram repercuss?es nos meios de comunica??o. Esses fatos marcantes, podem ser utilizados para caracterizar quais s?o os acontecimentos relevantes de um determinado evento. Nas redes sociais, esses acontecimentos geram discuss?es, compartilhamentos e novas not?cias, onde informa??es relevantes acabam tendo mais repercuss?es. Contudo, processar uma elevada massa de dados a fim de eliminar ru?dos e reconhecer informa??es torna-se muito custoso. Neste contexto, este trabalho tem como objetivo demonstrar uma abordagem para caracteriza??o de informa??es relevantes de eventos, atrav?s da extra??o de t?picos em dados compartilhados no Twitter, onde avaliamos o desempenho de tr?s m?todos de aprendizagem de m?quina (K-means, Latent Dirichlet Allocation - LDA e Non-Negative Matrix Factorization - NMF) usados para extrair t?picos sobre as bases de dados da Opera??o Lava Jato e do processo de impeachment da presidente do Brasil em duas arquiteturas de pr?-processamento diferentes (tradicional e com reconhecimento de entidade), demonstrando que ? poss?vel utilizar uma rede social como fonte de dados para descobrir os t?picos relevantes atrav?s do sensoriamento de usu?rios que observam um evento. Em nossos experimentos, observamos que as t?cnicas de pr?-processamento t?m influ?ncia direta sobre o resultado da extra??o de t?picos. Al?m disso, observamos que a t?cnica Silhouette nos ajudou a encontrar o melhor valor de clusters para uma determinada amostra de dados. Nos resultados o NMF apresentou o melhor desempenho nas duas bases de dados, tanto na tarefa de extra??o de t?picos quanto no tempo de execu??o.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de P?s-gradua??o em Inform?tica}, note = {Instituto de Computa??o} }