In this thesis, we focus on techniques for dimensionality reduction and classification problems, which facilitate the statistical analysis and interpretation of complex data. In Chapter 1, we present Principal Components Analysis (PCA): a dimensionality reduction technique. We introduce its aim and the theoretical basis, we define the properties of Principal Components and their correlation structure. The loadings, component scores and correlation circle are analysed. Methods for extracting the appropriate number of Principal Components are included. Furthermore, we carry out a classical and a modern application of PCA to two different datasets. Specifically, we describe and inspect the Irish dataset, in which the number of variables is lower than the number of the individuals (classical application), and the Chicken dataset which includes far fewer individuals than variables (modern application). In Chapter 2, Classification is introduced and some of the most important parametric classifiers are analysed. Firstly, we introduce Logistic Regression Analysis, the interpretation and estimation of its coefficients and the ROC Curve and we apply it to the Irish dataset. Then, Linear Discriminant Analysis is introduced, its method and application to the Irish data. Lastly, the theoretical basis of Quadratic Discriminant Analysis is presented and its application to the Irish dataset as well. In Chapter 3, we introduce K-Nearest Neighbors non-parametric method for classification, its method and application to the Irish dataset and to a more complex one: Khan dataset. We extract important insights. Chapter 4 is devoted to methods based on Trees. More precisely, Classification Trees and Regression Trees methods are analysed. Regarding the Classification Trees, we introduce the method, present the building procedure of a classification tree, the tree pruning and some advantages of Classification Trees method, and we apply it to the Irish dataset. Regarding the Regression Trees, we introduce the method and the pruning procedure, and we apply it to the Boston dataset. Finally, Chapter 5 includes important remarks and conclusions, taking into account all of the methods applied to the Irish data. En este Trabajo Fin de Máster, nos centramos en técnicas para reducción de la dimensionalidad y clasificación, que facilitan el análisis estadístico e interpretación de datos más complejos. En el primer capítulo del trabajo, se presenta el Análisis de Componentes Principales (ACP o PCA), una técnica útil para reducción de dimensionalidad. Introducimos sus objetivos y su base teórica, definimos las propiedades de las Componentes Principales y su estructura de correlaciones. Se analizan las cargas (loadings), scores y el círculo de correlación. Así mismo se incluyen métodos para escoger las Componentes Principales significativas. Además, realizamos una aplicación de ACP clásica y una moderna, a dos diferentes conjuntos de datos. Más concretamente, estudiamos el conjunto Irish data, en el que el número de variables es menor que el número de individuos (aplicación clásica), y el conjunto Chicken data, que incluye mucho menos individuos que variables (aplicación moderna). Se obtienen conclusiones para estos conjuntos de datos. En el segundo capítulo, se introduce la clasificación y se analizan algunos de los clasificadores más importantes. Tratamos en primer lugar, el Análisis de Regresión Logística, la interpretación y estimación de sus coeficientes, la Curva ROC, y aplicamos este método al conjunto Irish data. En segundo lugar, se introduce el Análisis Discriminante Lineal (ADL o LDA), el método y aplicación al conjunto de datos Irish data. Finalmente, se analiza la base teórica del Análisis Discriminante Quadrático (ADQ o QDA) y su aplicación a Irish dataset también. En el tercer capítulo, vemos el método de K vecinos más cercanos o K-Nearest Neighbors (KNN), un clasificador no paramétrico. Se detallan su método, su aplicación al conjunto de datos Irish data y además a un conjunto de datos más complejo: Khan dataset. Extraemos conclusiones importantes. El cuarto capítulo trata sobre métodos basadas en Árboles. Más precisamente, se explican los Árboles de Clasificación y Regresión. En cuanto a los Árboles de Clasificación, introducimos el método, presentamos el proceso de construir un Árbol de Clasificación y de podarlo, citamos algunas ventajas de este clasificador y lo aplicamos al Irish dataset. En cuanto a los Árboles de Regresión, también introducimos el método, la poda y aplicamos un Árbol de Regresión al conjunto de datos Boston data. Para finalizar, el quinto capítulo incluye algunas conclusiones y observaciones, teniendo en cuenta todos los métodos aplicados al conjunto de datos Irish dataset. Στο πλαίσιο της παρούσας διπλωματικής εργασίας, εστιάζουμε σε τεχνικές μείωσης διαστάσεων και σε προβλήματα κατηγοριοποίησης/ταξινόμησης (classi cation), που διευκολύνουν την στατιστική ανάλυση και τη γνώση και κατανόηση σύνθετων δεδομένων. Στο Κεφάλαιο 1 παρουσιάζουμε τη Μέθοδο Κύριων Συνιστωσών (PCA), μια τεχνική μείωσης διαστάσεων. Εισάγουμε τον σκοπό της μεθόδου και το θεωρητικό της υπόβαθρο, ορίζουμε τις ιδιότητες των Κύριων Συνιστωσών και τη δομή συσχέτισης τους. Τα φορτία (loadings), οι τιμές (scores) των Κύριων Συνιστωσών και ο κύκλος συσχέτισης αναλύονται. Μέθοδοι για επιλογή του κατάλληλου αριθμού Κύριων Συνιστωσών που πρέπει να χρησιμοποιηθούν στην ανάλυση περιέχονται. Ακολούθως, πραγματοποιούμε μια κλασική και μια σύγχρονη εφαρμογή της Μεθόδου Κύριων Συνιστωσών σε δύο διαφορετικά σετ δεδομένων. Πιο συγκεκριμένα, εξετάζουμε το Irish dataset, κατά το οποίο το πλήθος των μεταβλητών είναι μικρότερο από αυτό των παρατηρήσεων (κλασική εφαρμογή) και το Chicken data, το οποίο περιέχει πολύ λιγότερες παρατηρήσεις σε σχέση με τις μεταβλητές (σύγχρονη εφαρμογή). Στο δεύτερο κεφάλαιο, εισάγεται ο όρος της κατηγοριοποίησης/ταξινόμησης και κάποιοι από τους πιο σημαντικούς παραμετρικούς ταξινομητές αναλύονται. Πρώτα, εισάγουμε την Ανάλυση Λογιστικής Παλινδρόμησης (Logistic Regression), την ερμηνεία και εκτίμηση των παραμέτρων της, την Καμπύλη ROC και εφαρμόζουμε την τεχνική αυτή στο σύνολο δεδομένων Irish data. ΄Επειτα, εισάγεται η Γραμμική Διακριτική Ανάλυση (LDA), η μέθοδος της και η εφαρμογή της στο Irish dataset. Τέλος, αναλύεται το θεωρητικό/μαθηματικό υπόβαθρο της Τετραγωνικής Διακριτικής Ανάλυσης (QDA) και η εφαρμογή της στο Irish dataset, επίσης. Στο τρίτο κεφάλαιο, εισάγουμε τη μέθοδο των Κ Κοντινότερων Γειτόνων (K Nearest Neighbors, KNN): έναν μη παραμετρικό ταξινομητή. Παραθέτουμε τη μέθοδο του ΚΝΝ και την εφαρμογή αυτού στο Irish dataset, καθώς και σε ένα πιο σύνθετο: το σύνολο δεδομένων Khan. Aντλούμε σημαντικά συμπεράσματα. Το Κεφάλαιο 4 εξειδικεύεται σε μεθόδους βασισμένες σε Δέντρα Αποφάσεων. Ειδικότερα, αναλύονται τα Δέντρα Κατηγοριοποίησης/Ταξινόμησης (Classi cation Trees) και τα Δέντρα Παλινδρόμησης (Regression Trees). ΄Οσον αφορά τα Δέντρα Ταξινόμησης, εισάγουμε τη μέθοδο, παρουσιάζουμε τη διαδικασία κατασκευής ενός Δέντρου Ταξινόμησης, καθώς κι ενός Κλαδεμένου Δέντρου (Tree Pruning), παραθέτουμε κάποια βασικά πλεονεκτήματα της τεχνικής αυτής και την εφαρμόζουμε στο Irish dataset. ΄Οσον αφορά τα Δέντρα Παλινδρόμησης, εισάγουμε τη μέθοδο, τη διαδικασία Κλαδέματος του Δέντρου και την εφαρμόζουμε στο σύνολο δεδομένων Boston data. Κλείνοντας, το πέμπτο κεφάλαιο περιέχει σημαντικά συμπεράσματα και επισημάνσεις, λαμβάνοντας υπόψιν όλες τις εφαρμογές των μεθόδων που χρησιμοποιήθηκαν πάνω στο σύνολο δεδομένων Irish data. Universidad de Sevilla. Máster Universitario en Matemáticas