Uso de região de interesse para tratamento de desbalanceamento de Bases de Dados de monitoramento de tráfego de redes de acesso geradas por adesão voluntária

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/9313

???metadata.dc.type???:	Dissertação
Title:	Uso de região de interesse para tratamento de desbalanceamento de Bases de Dados de monitoramento de tráfego de redes de acesso geradas por adesão voluntária
???metadata.dc.creator???:	Silva, Juliana Castro da
???metadata.dc.contributor.advisor1???:	Melo, César Augusto Viana
???metadata.dc.contributor.referee1???:	Figueiredo, Gustavo Bittencourt
???metadata.dc.contributor.referee2???:	Souto, Eduardo James Pereira
???metadata.dc.description.resumo???:	Uma base de dados desbalanceada é caracterizada pela diferença entre a quantidade de amostras observadas entre os grupos de dados, o mais observado é chamado majoritário e o menos observado é chamado minoritário. Essa característica está presente em bases de diferentes domínios, como finanças, diagnóstico de doenças e clima. Bases de dados geradas por adesão voluntária também podem apresentar desbalanceamento, pois os dados coletados estão diretamente relacionado com o perfil social e econômico do voluntário. Em geral, a coleta desses dados é demorada e consume recursos financeiros significativos impossibilitando a extensão do período de coleta ou a repetição da coleta. Nesse contexto, a representatividade dos dados é uma questão fundamental a ser observada quando se usa essas bases de dados para treinamento de modelos de aprendizagem, por exemplo, para resolver problemas de predição e classificação com precisão significativa. Estratégias para resolver o problema de desbalanceamento têm sido propostas e avaliadas em diferentes domínios de aplicação. Essas estratégias abordam o problema tanto em nível algorítmico, em que modifica-se os modelos de aprendizagem, quanto em nível de dados, em que modifica-se a distribuição estatística dos dados. No nível de dados, tem-se o método de oversampling, que consiste em modificar a distribuição dos dados gerando amostras pouco observadas do grupo de interesse. A geração das amostras utiliza o conceito de vizinhança que é estabelecida por medida de similaridade, por exemplo, uma medida de distância entre amostras. Essa abordagem é implementada pelo SMOTE for Regression (SMOTER) e tem sido bastante difundida devido a sua simplicidade. A maior crítica a essa abordagem é desconsiderar a região em que a amostra é gerada, o que pode produzir amostras com valores inadequados de atributos. Para superar as dificuldades identificadas nos métodos baseados em vizinhança, outra abordagem, que propõe a geração de amostras a partir da identificação da região de interesse, é implementada pelo método Radial-Based Oversampling (RBO). Esse método usa uma função de base radial para caracterizar as regiões de interesse de geração de novas amostras. A principal crítica a esse método é o alto custo computacional dessa operação, tornando o seu uso inviável em grandes conjuntos de dados. Este trabalho apresenta um método, extensão do método RBO, para tratar o desbalanceamento de bases, também baseado em região de interesse, que supera as limitações características do RBO. As avaliações realizadas usando as bases de dados do projeto Neubot coletadas por 06 anos, com mais de 12 milhões de registros de sensoriamento de sessões de streaming de vídeo, mostram a eficiência do método na geração das amostras. A qualidade das amostras geradas foi avaliada sob diferentes perspectivas, inclusive quando elas são utilizadas para treinar modelos de regressão.
Abstract:	An unbalanced dataset is characterized by a significant difference among groups of data. These groups have been named the majority group, i.e., it has a large majority number of samples, and the minority group, i.e., it has a small number of samples. This pattern has been observed in datasets from different domains, e.g., finance, weather, and medical diagnostics. More recently, datasets collected using crowdsourcing techniques were put in this basket due to the social and economic profile of gathered volunteers. In general, the process of collecting data is costly and time-consuming which imposes severe restrictions to extend the collecting period or repeat the process to acquire more data or to improve the quality of acquired data. Moreover, the most wanted learning characteristics are misrepresented in the minority group. In this context, data representativeness is a key issue in using those datasets for training Machine Learning models, for instance, to solve classification and prediction problems with significant accuracy. Therefore, strategies for solving the unbalanced dataset problem have been proposed by using an algorithmic approach, i.e., it changes the learning algorithm, or using a data-driven approach, i.e., it changes the data distribution probability. Oversampling is a data-driven approach and works by changing the data distribution through sampling and patching the minority group. This sampling happens based on the concept of a neighborhood which is established by measuring the similarity among samples of the minority group, for instance, using Euclidean distance. The SMOTER, SMOTE for Regression, implements neighborhood-based oversampling and has been widely considered due to its simplicity and acceptable accuracy. The neighborhood-based approaches suffer from the inlay-regions problem, i.e., they ignore the existence of inlay minority regions, which induces the neighborhood-based algorithms to sample data with inappropriate values. For overcoming this problem, the concept of the region of interest is defined and used to guide the sampling. Radial-Based Oversampling - RBO is driven by this concept. It applies a Radial-based kernel function to characterize the regions of interest and induce the sampling. In this work, we present a novel method, named RBO-QS, for unbalanced datasets which overcomes the identified drawbacks of the RBO method. The numerical studies show that the proposed methods can do the sampling in an efficient and accurate way. The quality of data samples was evaluated under different criteria which includes the regression model training. The dataset used to carry out the experimental studies was collected during six years and has over 12 million sensing entries of video streaming sessions.
???metadata.dc.subject.cnpq???:	CIENCIAS EXATAS E DA TERRA
???metadata.dc.subject.user???:	Desbalanceamento de bases de dados Oversampling baseado em vizinhança Oversampling baseado em região de interesse Aprendizagem de máquina Regressão linear
Language:	por
???metadata.dc.publisher.country???:	Brasil
Publisher:	Universidade Federal do Amazonas
???metadata.dc.publisher.initials???:	UFAM
???metadata.dc.publisher.department???:	Instituto de Computação
???metadata.dc.publisher.program???:	Programa de Pós-graduação em Informática
Citation:	SILVA, Juliana Castro da. Uso de região de interesse para tratamento de desbalanceamento de Bases de Dados de monitoramento de tráfego de redes de acesso geradas por adesão voluntária. 2022. 78 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus (AM), 2022.
???metadata.dc.rights???:	Acesso Aberto
URI:	https://tede.ufam.edu.br/handle/tede/9313
Issue Date:	30-Nov-2022
Appears in Collections:	Mestrado em Informática

Files in This Item:

File	Description	Size	Format
Dissertacao_JulianaSilva_PPGI		3.24 MB	Adobe PDF	Download/Open Preview ×

Show full item record Recommend this item

Universidade Federal do Amazonas