@PHDTHESIS{ 2015:1906078895, title = {Dete??o de Spam baseada na evolu??o das caracter?sticas com presen?a de Concept Drift}, year = {2015}, url = "http://tede.ufam.edu.br/handle/tede/4708", abstract = "As mensagens eletr?nicas (e-mails) ainda s?o consideradas as ferramentas de maior prest?gio no meio empresarial e pessoal, pois apresentam baixo custo e facilidade de acesso. Por outro lado, os e-mails tornaram-se um grande problema devido ? elevada quantidade de mensagens n?o desejadas, denominadas spam, que lotam as caixas de emails dos usu?rios. Dentre os diversos problemas causados pelas mensagens spam, destaca-se o fato de ser atualmente o principal vetor de propaga??o de atividades maliciosas como v?rus, worms, cavalos de Tr?ia, phishing, botnets, dentre outros. Tais atividades permitem ao atacante acesso indevido a dados sigilosos, segredos de neg?cios ou mesmo invadir a privacidade das v?timas para obter alguma vantagem. Diversas abordagens, comerciais e acad?micas, t?m sido propostas para impedir o envio de mensagens de e-mails indesejados como filtros implementados nos servidores de e-mail, mecanismos de classifica??o de mensagens de spam para que os usu?rios definam quando determinado assunto ou autor ? fonte de propaga??o de spam e at? mesmo filtros implementados em componentes eletr?nicos de rede. Em geral, as abordagens de filtros de e-mail s?o baseadas na an?lise do conte?do das mensagens para determinar se tal mensagem ? ou n?o um spam. Um dos maiores problemas com essa abordagem ? a dete??o de spam na presen?a de concept drift. A literatura conceitua concept drift como mudan?as que ocorrem no conceito dos dados ao longo do tempo como a altera??o das caracter?sticas que descrevem um ataque ou ocorr?ncia de novas caracter?sticas. Muitos Sistemas de Dete??o de Intrus?o (IDS) usam t?cnicas de aprendizagem de m?quina para monitorar a taxa de erro de classifica??o no intuito de detetar mudan?a. Entretanto, quando a dete??o ocorre, algum dano j? foi causado ao sistema, fato que requer atualiza??o do processo de classifica??o e a interven??o do operador do sistema. Com o objetivo de minimizar os problemas mencionados acima, esta tese prop?e um m?todo de dete??o de mudan?a, denominado M?todo orientado ? An?lise da Evolu??o das Caracter?sticas de Ataques (MECA). O m?todo proposto ? composto por tr?s etapas: 1) treino do modelo de classifica??o; 2) dete??o de mudan?a; e 3) transfer?ncia do aprendizado. A primeira etapa emprega modelos de classifica??o comumente adotados em qualquer m?todo que utiliza aprendizagem de m?quina. A segunda etapa apresenta duas novas estrat?gias para contornar concept drift: HFS (Historical-based Features Selection) que analisa a evolu??o das caracter?sticas com base no hist?rico ao longo do tempo; e SFS (Similarity based Features Selection) que observa a evolu??o das caracter?sticas a partir do n?vel de similaridade obtido entre os vetores de caracter?sticas dos dom?nios fonte e alvo. Por fim, a terceira etapa concentra seu objetivo nas seguintes quest?es: o que, como e quando transferir conhecimento adquirido. A resposta ? primeira quest?o ? fornecida pelas estrat?gias de dete??o de mudan?a, que identificam as novas caracter?sticas e as armazenam para que sejam transferidas. Para responder a segunda quest?o, a abordagem de transfer?ncia de representa??o de caracter?sticas ? adotada. Finalmente, a transfer?ncia do novo conhecimento ? realizada t?o logo mudan?as que comprometam o desempenho da tarefa de classifica??o sejam identificadas. O m?todo MECA foi desenvolvido e validado usando duas bases de dados p?blicas, sendo que uma das bases foi constru?da ao longo desta tese. Os resultados dos experimentos indicaram que ? poss?vel inferir um limiar para detetar mudan?as a fim de garantir o modelo de classifica??o sempre atualizado por meio da transfer?ncia de conhecimento. Al?m disso, um diferencial apresentado no m?todo MECA ? a possibilidade de executar a tarefa de classifica??o em paralelo com a dete??o de mudan?a, sendo as duas tarefas independentes. Por fim, o MECA utiliza o algoritmo de aprendizagem de m?quina SVM (Support Vector Machines), que ? menos aderente ?s amostras de treinamento. Os resultados obtidos com o MECA mostraram que ? poss?vel detetar mudan?as por meio da evolu??o das caracter?sticas antes de ocorrer uma degrada??o significativa no modelo de classifica??o utilizado.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de P?s-gradua??o em Inform?tica}, note = {Instituto de Computa??o} }