Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo

???item.export.label???

Please use this identifier to cite or link to this item: https://tede.ufam.edu.br/handle/tede/7944

???metadata.dc.type???:	Tese
Title:	Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo
???metadata.dc.creator???:	Piedade, Márcio Palheta
???metadata.dc.contributor.advisor1???:	Cristo, Marco Antônio Pinheiro de
???metadata.dc.contributor.referee1???:	Costa, Elloá Barreto Guedes da
???metadata.dc.contributor.referee2???:	Onety, Renata da Encarnação
???metadata.dc.contributor.referee3???:	Rosa, Thierson Couto
???metadata.dc.contributor.referee4???:	Carvalho, André Luiz da Costa
???metadata.dc.description.resumo???:	Instituições credoras precisam lidar com as incertezas do negócio, criando estratégias que diminuam os riscos associados à concessão de crédito de seus clientes. Para lidar com este problema, foram desenvolvidos modelos quantitativos de previsão de risco baseados em dados cadastrais e comportamentais dos clientes. Nos últimos anos, novas gerações destes modelos, baseadas em aprendizagem de máquina, têm sido comumente usadas por instituições financeiras e de varejo. De forma geral, este problema é formulado como um problema de classificação binária onde se deseja discriminar bons de maus pagadores. Por este ser um problema de natureza desbalanceada (normalmente, há mais bons que maus pagadores), é comum a adoção de estratégias que levam à sub-representação ou extrapolação de dados e, consequentemente, com alteração da distribuição real das amostras, o que pode influenciar negativamente no desempenho dos modelos. Além disso, muitas vezes estes modelos não tiram proveito de particularidades das políticas de crédito nas quais eles serão empregados. Estas podem dar diferente valor para diferentes tipos de erro, aplicando diferentes critérios para diferentes partes das listas ordenadas de escores de crédito. Uma forma de lidar com tais problemas é criar modelos que aprendam diretamente o ranking de crédito (ou seja, qual a ordem esperada entre dois clientes, dado os seus riscos) em lugar da distinção entre bons e maus. Um inconveniente desta abordagem é que ela tem custo de aprendizado maior, uma vez que o modelo deve analisar pares de instâncias. Contudo, a literatura recente de aprendizagem de máquina tem produzido muitas técnicas de equivalência de problemas capazes de otimizar tarefas de ranking de forma robusta a desbalanceamento, com custos de treino comuns aos da tarefa de classificação. Além disso, com grandes massas de dados e complexos padrões típicos de modelos de comportamento usados no varejo, é possível adotar modelos baseados em aprendizagem profunda, que têm sido usados com sucesso em uma grande variedade de aplicações. Neste trabalho, apresentamos modelos de aprendizagem profunda para o problema de modelagem de crédito para varejo que envolve dados comportamentais na entrada. Para tanto, tratamos o problema com uma solução de equivalência entre classificação binária e ranking bipartido, utilizando para isso uma função de perda assimétrica, com hiper-parâmetros aprendidos durante o treino. Desta forma, associamos as vantagens das soluções de classificação binária com as de um modelo de ranking bipartido, ou seja, baixo custo de treinamento, possibilidade de calibrar o grau de tolerância a erros em partes específicas do ranking e robustez a desbalanceamento. Por meio da avaliação em dois conjuntos de dados de grande escala, um público e outro privado, observamos que o modelo proposto é capaz de superar vários outros modelos baseados em aprendizagem superficial e profunda.
Abstract:	Credit institutions need to deal with the uncertainties of the business by creating strategies that reduce the risks associated with granting credit to their customers. To address this problem, quantitative risk prediction models based on application and behavioral customer data have been developed. In recent years, new generations of these models, based on machine learning, have been commonly used by financial and retail institutions. In general, this problem is formulated as a binary classification problem in which we want to discriminate between good and bad payers. As it is a problem of an unbalanced nature (there are generally more good than bad payers), it is common to adopt strategies that lead to underrepresentation or extrapolation of data and, consequently, to a distribution of samples other than the actual one, which affects the performance of the models. Moreover, these models usually do not take advantage of the particular credit policies adopted where they will be deployed. Such policies can weight differently different types of error by applying different criteria to different parts of the ordered lists of credit scores. An approach to deal with such problems is to create models that directly learn the credit ranking (ie, what is the expected order between two customers, given their risks) rather than the distinction between good and bad payers. A drawback of this approach is that it has a higher learning cost, since the model must analyze pairs of instances. However, the recent literature on machine learning has produced many techniques, based on problem equivalence, capable of optimizing ranking tasks in a robust way to imbalance, with the same training costs of binary classification tasks. In addition, with large datasets and the complexity of retail customer behavior, it is possible to adopt models based on deep learning that have been used successfully in a wide range of applications. In this paper, we present deep learning models for the retail credit modeling problem where the customer representation includes their behavior. For this, we cope with the problem with a solution of equivalence between binary classification and bipartite ranking, using an asymmetric loss function with hyperparameters learned during the training. By doing so, we associate the advantages of binary classification solutions with those of a bipartite ranking model, that is, low training costs, the possibility to calibrate the degree of tolerance to errors in specific parts of the ranking and robustness to imbalance. By evaluating our technique in two large-scale datasets, a public and a private one, we observed that it is able to outperform several other shallow and deep learning strategies.
Keywords:	Aprendizado do computador Sistemas de avaliação de risco de crédito (Finanças) Ranking bipartido Aprendizagem profunda - Computação Políticas de crédito
???metadata.dc.subject.cnpq???:	CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
???metadata.dc.subject.user???:	Funções assimétricas de perda Aprendizagem profunda Pontuação de crédito Risco de crédito no varejo Otimização
Language:	por
???metadata.dc.publisher.country???:	Brasil
Publisher:	Universidade Federal do Amazonas
???metadata.dc.publisher.initials???:	UFAM
???metadata.dc.publisher.department???:	Instituto de Computação
???metadata.dc.publisher.program???:	Programa de Pós-graduação em Informática
Citation:	PIEDADE, Márcio Palheta. Uma abordagem de aprendizagem profunda que usa funções assimétricas para modelagem de pontuação de crédito no varejo. 2020. 147 f. Tese (Doutorado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.
???metadata.dc.rights???:	Acesso Aberto
URI:	https://tede.ufam.edu.br/handle/tede/7944
Issue Date:	22-Jul-2020
Appears in Collections:	Doutorado em Informática

Files in This Item:

File	Description	Size	Format
Tese_MárcioPiedade_PPGI.pdf	Tese_MárcioPiedade_PPGI.pdf	7.82 MB	Adobe PDF	Download/Open Preview ×

Show full item record Recommend this item

Universidade Federal do Amazonas