Back to Search
Start Over
Algoritmos de aprendizaje automático para detección de fraudes con tarjetas de crédito: Análisis y comparativa
- Source :
- Archivo Digital UPM, Universidad Politécnica de Madrid
- Publication Year :
- 2021
- Publisher :
- E.T.S.I de Sistemas Informáticos (UPM), 2021.
-
Abstract
- El pago con tarjetas de crédito es una práctica cada vez más habitual en la sociedad actual. Por desgracia, esta actividad se ve constantemente amenazada por posibles fraudes en cualquier tipo de sus transacciones. Estas vulnerabilidades acarrean consecuencias negativas para la industria financiera y los usuarios. La minería de datos ha desempeñado un papel destacado en la detección del fraude con tarjetas de crédito. En concreto, la detección de transacciones fraudulentas puede enfocarse como un problema de aprendizaje automático, el cual se afronta como un reto debido a dos razones principales: en primer lugar, los perfiles de los comportamientos normales y fraudulentos cambian constantemente y, en segundo lugar, los conjuntos de datos de fraude con tarjetas de crédito están muy sesgados (distribución de clases desequilibrada). El rendimiento de la detección del fraude en las transacciones de tarjetas de crédito se ve afectado en gran medida por el enfoque de muestreo del conjunto de datos, la selección de variables y la(s) técnica(s) de detección utilizadas. Este Proyecto de Fin de Grado aborda el estudio de las técnicas existentes para tratar con conjuntos de datos desequilibrados y la detección de fraudes con tarjetas de crédito mediante algoritmos de Aprendizaje Automático. Para ello, se lleva a cabo un análisis comparativo de las técnicas de submuestreo (aleatorio) y sobremuestreo (SMOTE) de datos y, tras balancear la muestra, se implementan cuatro algoritmos clasificadores clásicos, a saber: Regresión Logística, k-vecinos más próximos, Máquina de Soporte Vectorial (SVM) y Árbol de Decisiones. Por último, se desarrollan dos redes neuronales profundas (una para cada método de balanceo) cuyos resultados se comparan con el algoritmo que mayor rendimiento haya ofrecido en sus predicciones. Las pruebas experimentales de este Proyecto se han basado en un conjunto de datos (dataset) público, obtenido a través de la plataforma Kaggle y a partir del cual se ha desarrollado un ‘notebook’ implementado en Python. Abstract: Credit card payments are an increasingly common practice in today’s society. Unfortunately, this activity is constantly under threat from credit card fraud, which has negative consequences both for the financial industry and the final user. Data mining has played a prominent role in the detection of the credit card frauds using online transactions. In particular, fraudulent transaction detection can be identified as a machine learning problem, which becomes challenging due to two main reasons: firstly, the profiles of normal and fraudulent behaviours in the transactions are constantly changing and, secondly, credit card fraud datasets are highly skewed (unbalanced class distribution). The performance of fraud detection in credit card transactions is largely affected by the sampling approach of the dataset, the selection of variables and the detection technique(s) used. This Final Degree Project adressess the study of existing techniques for dealing with unbalanced data sets within the detection of credit card frauds context using Machine Learning algorithms. For this purpose, a comparative analysis of the techniques of random undersampling and oversampling (SMOTE) of data is carried out and, after balancing the sample, four classic classifier algorithms are implemented, namely: Logistic Regression, k-nearest neighbours, Support Vector Machine (SVM) and Decision Trees. Finally, two deep neural networks are developed (one for each balancing method) whose results are compared with the algorithm that has offered the best performance in its predictions. The experimental tests of this Project have been based on a public dataset from the Kaggle platform, from which a notebook implemented in Python has been developed.
- Subjects :
- Informática
Subjects
Details
- Language :
- Spanish; Castilian
- Database :
- OpenAIRE
- Journal :
- Archivo Digital UPM, Universidad Politécnica de Madrid
- Accession number :
- edsair.dedup.wf.001..1338e6c70d88c1bc942cc346f93c87c1