@MASTERSTHESIS{ 2015:1308430983, title = {Extra??o n?o supervisionada de dados da web utilizando abordagem independente de formato}, year = {2015}, url = "http://tede.ufam.edu.br/handle/tede/5113", abstract = "Nessa disserta??o de mestrado propomos um novo m?todo para extra??o em p?ginas Web ricas em dados que utiliza apenas o conte?do textual destas p?ginas. Nosso m?todo, chamado de FIEX (Format Independent Web Data Extraction), ? baseado em t?cnicas de extra??o de informa??o por segmenta??o de texto, e consegue extrair dados de p?ginas Web nas quais m?todos do estado-da-arte baseados em t?cnicas de alinhamento de dados n?o conseguem devido ? inconsist?ncia entre a estrutura l?gica das p?ginas Web e a estrutura conceitual dos dados nelas representadas. O FIEX, diferentemente dos m?todos previamente propostos na literatura, ? capaz de extrair dados apenas utilizando o conte?do textual de uma p?gina Web em cen?rios desa adores como casos severos de elementos textuais compostos, nos quais diversos valores de interesse para extra??o est?o representados por apenas um elemento HTML. Para realizar a extra??o dos dados de p?ginas Web, o FIEX, ? baseado em t?cnicas de elimina??o de ru?dos por redund?ncia de informa??o e um m?todo de extra??o de informa??o por segmenta??o de texto conhecido na literatura como ONDUX (On-Demand Unsupervised Learning for Information Extraction). Em nossos experimentos, utilizamos v?rias cole??es de p?ginas Web de diferentes dom?nios de produtos e de lojas de com?rcio eletr ?nico com objetivo de extrair dados de descri??es de produtos. A escolha desse tipo de p?gina Web, deve-se ? grande quantidade de dados destas p?ginas estarem contidos em casos severos de elementos textuais compostos. De acordo com os resultados obtidos em nossos experimentos em diferentes dom?nios de produtos e lojas de com?rcio eletr?nico, validamos a hip?tese de que a extra??o baseada em apenas caracter?sticas textuais ? poss?vel e e caz.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de P?s-gradua??o em Inform?tica}, note = {Instituto de Computa??o} }