Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tede.ufam.edu.br/handle/tede/5668
Tipo do documento: Dissertação
Título: Um método para classificação de opinião em vídeo combinando expressões faciais e gestos
Autor: Gaio Junior, Airton 
Primeiro orientador: Santos, Eulanda Miranda dos
Primeiro membro da banca: Carvalho, José Reginaldo Hughes
Segundo membro da banca: Pio, José Luiz de Souza
Terceiro membro da banca: Silva Junior, Waldir Sabino da
Resumo: Um grande número de pessoas compartilha suas opiniões através de vídeos, gerando uma gama de dados incalculável. Esse fenômeno tem despertado elevado interesse de empresas em obter, a partir de vídeos a percepção do grau de sentimento envolvido na opinião das pessoas. E também tem sido uma nova tendência no campo de análise de sentimentos, com importantes desafios envolvidos. A maioria das pesquisas que abordam essa problemática utiliza em suas soluções a combinação de dados de três fontes diferentes: vídeo, áudio e texto. Portanto, são soluções baseadas em modelos complexos e dependentes do idioma, ainda assim, apresentam baixo desempenho. Nesse contexto, este trabalho busca responder a seguinte pergunta: é possível desenvolver um método de classificação de opinião que utilize somente vídeo como fonte de dados, e que obtenha resultados superiores ou equivalente aos resultados obtidos por métodos correntes que usam mais de uma fonte de dados? Como resposta a essa pergunta, é apresentado neste trabalho um método de classificação de opinião multimodal que combina informações de expressão facial e de gesto do corpo extraídas de vídeos on-line. O método proposto utiliza codificação de características para melhorar a representação dos dados e facilitar a tarefa de classificação, a fim de predizer a opinião exposta pelo usuário com elevada precisão e de forma independente do idioma utilizado nos vídeos. Com objetivo de testar o método proposto foram realizados experimentos com três bases de dados públicas e com três baselines. Os resultados dos experimentos mostram que o método proposto é em média 16% superior aos baselines em termos de acurácia e ou precisão, apesar de utilizar apenas dados de vídeo, enquanto os baselines utilizam vídeo, áudio e texto. Como forma de demonstrar portabilidade e independência de idiomas do método proposto, este foi treinado com instâncias de uma base de dados que tem opiniões expressas exclusivamente em inglês, e testado em uma base de dados cujas opiniões são expressas exclusivamente no idioma espanhol. O percentual de 82% de acurácia alcançado nesse teste indica que o método proposto pode ser considerado independente do idioma falado nos vídeos.
Abstract: A large amount of people share their opinions through videos, generates huge volume of data. This phenomenon has lead companies to be highly interested on obtaining from videos the perception of the degree of feeling involved in people’s opinion. It has also been a new trend in the field of sentiment analysis, with important challenges involved. Most of the researches that address this problem propose solutions based on the combination of data provided by three different sources: video, audio and text. Therefore, these solutions are complex and language-dependent. In addition, these solutions achieve low performance. In this context, this work focus on answering the following question: is it possible to develop an opinion classification method that uses only video as data source and still achieving superior or equivalent accuracy rates obtained by current methods that use more than one data source? In response to this question, a multimodal opinion classification method that combines facial expressions and body gestures information extracted from online videos is presented in this work. The proposed method uses a feature coding process to improve data representation in order to improve the classification task, leading to the prediction of the opinion expressed by the user with high precision and independent of the language used in the videos. In order to test the proposed method experiments were performed with three public datasets and three baselines. The results of the experiments show that the proposed method is on average 16% higher that baselines in terms of accuracy and precision, although it uses only video data, while the baselines employ information from video, audio and text. In order to verify whether or not the proposed method is portable and language-independent, the proposed method was trained with instances of a dataset whose language is exclusively English and tested using a dataset whose videos are exclusively in Spanish, applied in the conduct of the tests. The 82% of accuracy achieved in this test indicates that the proposed method may be assumed to be language-independent.
Palavras-chave: Reconhecimento multimodal de opinião
Expressões faciais e corporais
Codificadores
Fusão baseada em decisão
Área(s) do CNPq: CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
Idioma: por
País: Brasil
Instituição: Universidade Federal do Amazonas
Sigla da instituição: UFAM
Departamento: Instituto de Computação
Programa: Programa de Pós-graduação em Informática
Citação: GAIO JUNIOR, Airton. Um método para classificação de opinião em vídeo combinando expressões faciais e gestos. 2017. 73 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2017.
Tipo de acesso: Acesso Aberto
Endereço da licença: http://creativecommons.org/licenses/by-nc-nd/4.0/
URI: http://tede.ufam.edu.br/handle/tede/5668
Data de defesa: 5-Abr-2017
Aparece nas coleções:Mestrado em Informática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertação - Airton Gaio.pdf1,75 MBAdobe PDFThumbnail

Baixar/Abrir Pré-Visualizar


Este item está licenciada sob uma Licença Creative Commons Creative Commons