@MASTERSTHESIS{ 2021:661068616, title = {Representa??o, classifica??o e interpreta??o de sequ?ncias proteicas do v?rus da dengue}, year = {2021}, url = "https://tede.ufam.edu.br/handle/tede/8206", abstract = "O v?rus da dengue ? respons?vel por causar uma infec??o muito comum em alguns pa?ses da Am?rica Latina e do Oeste do Pac?fico, desencadeando diversos sintomas, tais como, febre, dor de cabe?a, n?useas, v?mitos e dores musculares. Os n?veis da infec??o podem ser divididos em: febre, febre hemorr?gica e s?ndrome de choque, sendo os dois ?ltimos casos associados a fatalidades. As causas que levam os hospedeiros a desenvolverem casos graves da infec??o n?o s?o completamente conhecidas. No entanto, as prote?nas que constituem o material gen?tico do v?rus da dengue s?o uma potencial fonte para extra??o de informa??o, um exemplo disso s?o as caracter?sticas presentes nessas que permitem diferenciar o v?rus entre subclasses de sorotipos e gen?tipos, al?m de conter informa??es filogen?ticas. Portanto, ? aceit?vel assumir que essas estruturas guardem caracter?sticas capazes de elevar a compreens?o sobre a dengue severa. O desafio de trabalhar com prote?nas ? a dificuldade de capturar caracter?sticas de interesse, visto que estas ocorrem na forma de padr?es em pequenas regi?es funcionais espalhadas dentro da sequ?ncia. Diante disso, representa??es de prote?nas em estruturas onde padr?es possam ser facilmente acessados passa a ser uma alternativa vi?vel para o tratamento de dados deste tipo. Nesta pesquisa, propomos uma metodologia para identificar padr?es em prote?nas da dengue associados a dengue severa em hospedeiros humanos. O m?todo baseia-se na representa??o de prote?nas da dengue em matrizes de co-ocorr?ncias de c?dons. Os algoritmos Random Forests (RF) e Convolutional Neuural Network (CNN) s?o empregados na classifica??o das matrizes rotuladas como dengue cl?ssica/severa. Posteriormente, os classificadores s?o interpretados pelo m?todo SHAP Values que, por sua vez, evid?ncia quais co-ocorr?ncias aumentam a probabilidade de dengue severa na amostra. Os resultados das interpreta??es s?o agrupados em gr?ficos de import?ncia que permitem evidenciar os padr?es de co-ocorr?ncia de c?dons associadas a dengue severa. Classificamos de forma independente cada uma das dez prote?nas da dengue. Os experimentos utilizando a RF alcan?aram resultados AUC que variam entre 0.70 e 0.83. Os melhores resultados foram obtidos a partir da classifica??o de matrizes da prote?na E em 25 resultados (cinco experimentos com cinco folds de valida??o cruzada cada), atingindo um AUC de 0.83 +- 0.02 com 95% de intervalo de confian?a. Os testes estat?sticos de Levene, Shapiro-Wilk, ANOVA e Tukey foram utilizados para testar se as m?dias das m?tricas calculadas nos 25 resultados eram diferentes entre as prote?nas, com isso, constatou-se que os resultados da prote?na E s?o estatisticamente distintos dos resultados das outras prote?nas, dando ind?cios de que a prote?na E caracteriza melhor a dengue severa. Por meio do m?todo proposto, conseguimos novas evid?ncias sobre o desenvolvimento da dengue severa, associando-a diretamente a padr?es frequentes de co-ocorr?ncia de c?dons. Nosso m?todo permitiu encontrar a exist?ncia de co-ocorr?ncias elevadas na prote?na E que podem estar associadas ao desencadeamento da dengue severa no hospedeiro. Al?m disso, em explora??es mais granulares, observamos grupos de co-ocorr?ncias que aumentam a probabilidade de dengue severa para os distintos sorotipos. Esses resultados podem desempenhar um papel importante na proposta de novos tratamentos, assim como ser alvo de debate sobre novas teorias referentes ao desenvolvimento de dengue severa em hospedeiros humanos.", publisher = {Universidade Federal do Amazonas}, scholl = {Programa de P?s-gradua??o em Inform?tica}, note = {Instituto de Computa??o} }