Start Over

Modelos de predicción en pruebas de motociclismo

Authors :: Royán González, Tamara
Pino Mejías, Rafael
Universidad de Sevilla. Departamento de Estadística e Investigación Operativa
Source :: idUS: Depósito de Investigación de la Universidad de Sevilla, Universidad de Sevilla (US), idUS. Depósito de Investigación de la Universidad de Sevilla, instname
Publication Year :: 2020
Abstract: En las siguientes páginas el lector podrá ver diferentes métodos para la predicción de resultados en pruebas de motociclismo, partiendo de datos históricos de las carreras disputadas en las diferentes categorías desde la temporada de 2005 hasta la de 2018. Primero se estudiarán modelos de regresión, seguirá el estudio con árboles y Random Forest (Bagging) y se completará con Deep Learning (redes neuronales) y Boosting. Para poder construir dichos modelos, antes he tenido que depurar los datos y he podido darme cuenta de los verdaderos obstáculos y lo tedioso que resulta lograr un conjunto de datos ordenado y fácilmente accesible. Con la ayuda de Excel y R, que es el lenguaje de programación con el que he trabajado, he conseguido estos objetivos. También es importante comentar que para cada modelo se contarán con tres versio nes diferentes del mismo, que habrán sido determinadas previamente seleccionando y transformando las variables del estudio. Finalmente se recogerán las conclusiones obtenidas y se expondrán todos los resultados conjuntamente para hacer un análisis global. En los Anexos se recogen todo el código usado en R para la elaboración del trabajo, tanto depuración de base de datos como implementación de cada uno de los métodos anteriormente mencionados, y algunas gráficas aclaratorias. Por tanto, el trabajo podría dividirse en seis fases fundamentales: Recolección, limpieza y tratamiento de datos. Selección y transformación de variables. Construcción de los modelos y entrenamiento de los mismos. Obtención de predicciones. Evaluación de los modelos con las predicciones obtenidas. Ranking con la importancia de las variables de cada modelo. In the following pages, you will be able to see different methods to predict motorcycle competition results, based on historical data of the races in the different categories from 2005 to 2018. First of all, regression models will be studied, it will continue with the study using trees and Random Forest (Bagging) and it will be completed with Deep Learning (neural networks) and Boosting. In order to construct such models, I have to data debugging and it’s when I realize the real obstacles and how tedious it is to achieve an easily accessible data base. With the help of Excel and R, which is the programming language I have worked with, I have achieved these goals. It’s also important knowing that for each model you will see three different versions of it, which would have been determined previously by selecting and transforming our variables. Finally the conclusions obtained will be collected and all the results will be presented together to make a global analysis. The Annexes include all the code used in R for the elaboration of the study, both database debugging and implementation of each of the above mentioned methods, and some explicative graphs. Therefore, the study could be split into six fundamental phases: Collection, cleaning and data processing. Selection and transformation of our variables. Model construction and training. Obtaining predictions. Evaluation of the models with the predictions obtained. Ranking with the variable importance in each model. Universidad de Sevilla. Grado en Estadística

Details

Database :: OpenAIRE
Journal :: idUS: Depósito de Investigación de la Universidad de Sevilla, Universidad de Sevilla (US), idUS. Depósito de Investigación de la Universidad de Sevilla, instname
Accession number :: edsair.dedup.wf.001..f24007261e1a1995aad0ac81ece33e60