Minería de términos frasales aplicada en tareas de recuperación de información

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/7189

???metadata.dc.type???:	Dissertação
Title:	Minería de términos frasales aplicada en tareas de recuperación de información
Other Titles:	Mining of phrasal terms applied in tasks of information recovery
???metadata.dc.creator???:	Sánchez Vera, Zulema
???metadata.dc.contributor.advisor1???:	Moura, Edleno Silva de
???metadata.dc.contributor.referee1???:	Silva, Altigran Soares da
???metadata.dc.contributor.referee2???:	Carvalho, André Luiz da Costa
???metadata.dc.description.resumo???:	El crecimiento espectacular y constante de la web con el consiguiente aumento en el número de documentos digitales disponibles y el uso cada día más frecuente de sistemas que lidian con información textual, han motivado constantes esfuerzos en el desarrollo de sistemas eficaces para el tratamiento de la información que realizan tareas como busca, clasificación y clusterización en bases de datos textuales. Conocida la relevancia de la representación del texto en los resultados de la recuperación de información, este trabajo investiga el impacto de la adición de términos frasales como unidades, debido a su interpretabilidad superior, con el objetivo de enriquecer la representación tradicional del modelo BoW. La idea es que con el uso de términos frasales el ruido y ambigüedad inherente de la representación del texto basada solo en palabras individuales sea reducida, traduciéndose en mayor calidad en los resultados obtenidos. Para la minería de términos frasales se utilizó el método Autophrase que integra los enfoques de segmentación y evaluación de la calidad para la extracción de secuencias de palabras, que constituyen unidades semánticas completas, no precisa de expertos humanos, es independiente del idioma, dominio e incorpora información sintáctica en forma de etiquetas POS siempre que esté disponible. En la búsqueda ad hoc se utilizó el modelo vectorial en los conjuntos de datos: OHSUMED, Cystic Fibrosis y Glasgow Herald 1995, los experimentos realizados muestran ganancias en el orden de 34,97 % utilizando la métrica de MAP. Observándose que la adición de información semántica en forma de términos frasales en las consultas, favorece la identificación de los documentos relevantes. En las tareas de clasificación y clusterización se comparó la mejora de rendimiento en términos de precisión, cuando los términos frasales mejor evaluados por las técnicas Chi2 y Mutual information son adicionados para ampliar la representación de los documentos, basadas en palabras individuales en las colecciones 20 newsgroups, DBpedia ontology classification y AG’news corpus respectivamente. Para esta comparación fueron empleados los clasificadores Naive Bayes y Support vector machine en la clasificación y K-means en la clusterización. Los resultados no mostraron ganancias significativas con la incorporación de los términos frasales. La conclusión, en este caso, es que los documentos ya de por si contienen suficiente información en forma de unigramas que aportan mayor peso que los términos frasales que aumentan la dispersión de los datos.
Abstract:	The spectacular and constant growth of the web with the consequent increase in the number of digital documents available and the increasingly frequent use of systems that deal with textual information, have motivated constant efforts in the development of effective systems for the treatment of information. who perform tasks such as search, classification and clustering in textual databases. Well-known relevance of the representation of the text in the results of the retrieval of information, this research investigates the impact of the addition of frasal terms as units, due to its superior interpretability, with the aim of enriching the traditional representation of the BoW model. The idea is that with the use of phrasal terms the inherent noise and ambiguity of the representation of the text based only on individual words is reduced, resulting in higher quality in the results obtained. For the mining of phrasal terms the method was used Autophrase that integrates the segmentation and quality evaluation approaches for the extraction of word sequences, which constitute complete semantic units, does not require human experts, is independent of the language, domain and incorporates syntactic information in the form of POS labels provided it is available. In the ad hoc search the vector model was used in the data sets: OHSUMED, Cystic Fibrosis and Glasgow Herald 1995, the experiments performed show gains in the order of 34.97 % using the MAP metric. Observing that the addition of semantic information in the form of phrasal terms in the queries, favors the identification of the relevant documents. In the tasks of classification and clustering, performance improvement in terms of precision was compared, when the best phrasal terms evaluated by the techniques Chi2 and mutual information were added to extend the representation of the documents, based in individual words in the collections 20 newsgroups, DBpedia ontological classification and AG’news corpus respectively. For this comparison, the classifiers Naive Bayes, Support vector machines were used in classification and K-means in the clustering. The results did not show significant advances with the incorporation of the phrasal terms. The conclusion, in this case, is that the documents already contain enough information in the form of unigrams that contribute more weight than the phrasal terms that increase the dispersion of the data.
Keywords:	Recuperação da informação Sistemas de recuperação da informação Termos-chave
???metadata.dc.subject.cnpq???:	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Language:	spa
???metadata.dc.publisher.country???:	Brasil
Publisher:	Universidade Federal do Amazonas
???metadata.dc.publisher.initials???:	UFAM
???metadata.dc.publisher.department???:	Instituto de Computação
???metadata.dc.publisher.program???:	Programa de Pós-graduação em Informática
Citation:	SÁNCHEZ VERA, Zulema. Minería de términos frasales aplicada en tareas de recuperación de información. 2019. 57 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2019.
???metadata.dc.rights???:	Acesso Aberto
???metadata.dc.rights.uri???:	http://creativecommons.org/licenses/by/4.0/
URI:	https://tede.ufam.edu.br/handle/tede/7189
Issue Date:	29-Apr-2019
Appears in Collections:	Mestrado em Informática

Files in This Item:

File	Description	Size	Format
Dissertação_ZulemaSanchezVera_PPGI.pdf		1.13 MB	Adobe PDF	Download/Open Preview ×

Show full item record Recommend this item

This item is licensed under a Creative Commons License

Universidade Federal do Amazonas