@MASTERSTHESIS{ 2009:834181254, title = {Identificando o T?pico de P?ginas Web}, year = {2009}, url = "http://tede.ufam.edu.br/handle/tede/2957", abstract = "Evid?ncias textuais e estruturais que podem ser extra?das dos documentos web s?o frequentemente usadas na busca pela melhoria da qualidade dos resultados obtidos pelos diversos sistemas de recupera??o de informa??o (RI). O t?pico de uma p?gina web ? uma evid?ncia textual que possui uma vasta aplicabilidade nesses sistemas, podendo servir como uma nova fonte de evid?ncia para melhorar ranking de p?ginas web, melhorar sistemas de classifica??o e filtragem destas p?ginas, entre outros. O presente trabalho tem por objetivo estudar, desenvolver e avaliar um m?todo para identificar automaticamente o t?pico de p?ginas web atrav?s da combina??o de diferentes fontes de evid?ncias. Definimos o t?pico de uma p?gina como sendo um conjunto de, no m?ximo, cinco termos distintos relacionadas ao assunto principal da p?gina. Em linhas gerais, o m?todo de identifica??o de t?picos proposto nesta disserta??o, est? dividido em quatro fases distintas: (1) identifica??o dos poss?veis termos descritores de uma p?gina web, fazendo uso de m?ltiplas fontes de evid?ncias; (2) utiliza??o de um algoritmo gen?tico na combina??o das fontes de evid?ncias usadas; (3) defini??o dos tr?s melhores termos descritores da p?gina; e (4) utiliza??o da estrutura hier?rquica de um diret?rio abrangente e popular da web com o objetivo de identificar o t?pico da referida p?gina. Os resultados obtidos nos experimentos realizados para avaliar o m?todo proposto foram os seguintes: (1) alto grau de import?ncia do uso da concatena??o do texto de ?ncora de links na descoberta dos termos descritores de uma p?gina web; (2) boa avalia??o da efici?ncia do m?todo proposto na identifica??o de t?picos de p?ginas web: 0.9129, em uma escala de zero a um; e (3) boa avalia??o da utiliza??o de parte do m?todo proposto na classifica??o autom?tica de p?ginas web na estrutura hier?rquica do diret?rio Google, atingindo 88%?0.11 de acertos das p?ginas classificadas. Os experimentos realizados demonstram que o modelo proposto ? ?til na identifica??o do t?pico de uma p?gina web e tamb?m na classifica??o de p?ginas na estrutura hier?rquica do diret?rio Google.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de P?s-gradua??o em Inform?tica}, note = {Instituto de Computa??o} }