@PHDTHESIS{ 2012:1985191061, title = {Extração de informação não-supervisionada por segmentação de texto}, year = {2012}, url = "http://tede.ufam.edu.br/handle/tede/4518", abstract = "Neste trabalho, propomos, implementar e avaliar uma nova abordagem não supervisionada para o problema de Extração de Informações Segmentação Texto (IETS). Nossa abordagem baseia-se em informações disponíveis sobre dados pré-existentes para aprender a associar segmentos na seqüência de entrada com atributos de um determinado domínio contando com uma muito eficaz conjunto de recursos baseados em conteúdo. A eficácia dos recursos com base em conteúdo também é explorada para aprender diretamente com recursos baseados em estrutura de dados de teste, sem prévia formação humana-driven, uma característica única para a nossa abordagem. Com base em nossa abordagem, que produziram um número de resultados de abordar o problema IETS num sem supervisão moda. Em particular, temos desenvolvido, implementado e avaliado IETS distintas métodos, nomeadamente ONDUX, judie e iForm. ONDUX (On Demand Unsupervised Extração de Informação) é uma abordagem probabilística sem supervisão para que IETS depende de características baseadas em conteúdo para iniciar o aprendizado de características baseadas em estrutura. Recursos baseados em estrutura são exploradas para disambiguate a extração de certos atributos através de uma etapa de reforço, que se baseia na sequenciação e posicionamento de valores de atributos diretamente aprendidas on-demand a partir dos textos de entrada. Judie (Joint Estrutura sem supervisão Descoberta e Extração de Informações) visa automaticamente extrair vários registros semi-estruturados de dados na forma de texto contínuo e não tendo delimitadores explícitas entre eles. Em comparação com outros IETS métodos, incluindo ONDUX, judie enfrenta uma tarefa consideravelmente mais forte, isto é, extrair informações, ao mesmo tempo descobrindo a estrutura subjacente de os registros implícitas que o contenham. Apesar disso, ele consegue resultados comparáveis ​​aos a métodos the-art estado-da. iForm aplica-se a nossa abordagem para a tarefa de forma Web o preenchimento. Destina-se a extração de segmentos de um texto rico em dados fornecidos como entrada e associando esses segmentos com campos de um formulário Web de destino. O processo de extracção depende de recursos com base em conteúdo aprendidas com os dados que foram previamente submetidos à o formulário Web. Todos esses métodos foram avaliados considerando diferente experimental conjuntos de dados, que usamos para realizar um grande conjunto de experiências, a fim de validar nossa abordagem e métodos. Estas experiências indicam que a nossa abordagem proposta produz resultados de alta qualidade quando comparado com abordagens state-of-the-art e que ele é capaz de suportar adequadamente os métodos IETS em uma série de aplicações reais.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de Pós-graduação em Informática}, note = {Instituto de Computação} }