@MASTERSTHESIS{ 2006:4171239, title = {Gera??o semi-autom?tica de extratores de dados da web considerando contextos fracos}, year = {2006}, url = "http://tede.ufam.edu.br/handle/tede/2936", abstract = "Hoje em dia a Web se apresenta como o maior reposit?rio de informa??es da humanidade. Contudo, essa imensa gama de informa??o ? formada principalmente por conte?do textual e necessariamente requer interpreta??o humana para se tornar ?til. Por outro lado, existe uma grande quantidade de p?ginas na Web que s?o, na verdade, formadas por um conjunto impl?cito de objetos. Isso ocorre, por exemplo, em p?ginas oriundas de sites de cat?logos on-line, bibliotecas digitais e com?rcio eletr?nico em geral. A extra??o desse conte?do e a identifica??o da estrutura dos objetos dispon?veis permite uma forma mais sofisticada de processamento al?m da tradicional navega??o por hiperlinks e consultas por palavras-chave. A tarefa de extrair dados de p?ginas Web ? executada por progamas chamados extratores ou wrappers. Neste trabalho propomos uma nova abordagem para o desenvolvimento de extratores. Nessa abordagem o usu?rio se restringe a fornecer exemplos de treinamento para os atributos que constituem os objetos de interesse. Baseado nesses exemplos, s?o gerados automaticamente padr?es para extrair dados inseridos em contextos similares ?queles fornecidos como exemplos. Em seguida, esses dados s?o automaticamente organizados segundo uma estrutura plaus?vel. Nosso m?todo de gera??o de padr?es de extra??o utiliza t?cnicas herdadas de solu??es para o problema do alinhamento m?ltiplo de seq??ncias. O m?todo ? capaz de produzir padr?es de extra??o que podem ser facilmente transformados em express?es regulares. A tarefa de inferir uma estrutura plaus?vel para os objetos extra?dos ? realizada pelo algoritmo HotCycles, que foi previamente proposto e que foi revisto e ampliado neste trabalho. O algoritmo constr?i um grafo de adjac?ncias para esses dados, e realiza nele, uma an?lise estrutural em busca de padr?es que indiquem construtores estruturais como tuplas e listas. A partir de tais construtores, ? associado um tipo aninhado aos dados que foram extra?dos da p?gina. Experimentos realizados em 21 cole??es de p?ginas reais da Web demonstram a viabilidade do m?todo de extra??o de valores at?micos, obtendo um desempenho superior a 94% e utilizando no m?ximo 10 exemplos de treinamento por atributo. O algoritmo HotCycles foi capaz de inferir uma estrutura plaus?vel para os objetos em todas as cole??es utilizadas. Seu desempenho combinado com o m?todo de extra??o de valores at?micos chegou a 97% de estruturas corretamente inferidas com a utiliza??o tamb?m at? 10 exemplos por atributo. A combina??o desses dois m?todos demonstrou-se extremamente vi?vel. Os altos ?ndices de estruturas corretamente inferidas juntamente com os elevados ?ndices de precis?o e revoca??o do processo de extra??o demonstram que esta ? sem d?vida uma abordagem promissora.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de P?s-gradua??o em Inform?tica}, note = {Instituto de Computa??o} }