Ziogas Ioannis-Panagiotis, Χαλκιαδακης Γεωργιος, Chalkiadakis Georgios, Λαγουδακης Μιχαηλ, Lagoudakis Michail, Σαμολαδας Βασιλης, Samoladas Vasilis, Επιβλέπων: Χαλκιαδακης Γεωργιος, Advisor: Chalkiadakis Georgios, Μέλος επιτροπής: Λαγουδακης Μιχαηλ, Committee member: Lagoudakis Michail, Μέλος επιτροπής: Σαμολαδας Βασιλης, and Committee member: Samoladas Vasilis
In this MSc thesis, we put forward several novel recommender algorithms integrated into a hybrid recommender system for the tourism domain. To this end, we first explore the use of semantic similarity measures for Content-based recommendations to suggest tourist attractions. We study ways of deploying hierarchies of points of interests (POIs) and operate upon them with well-known similarity measures originating in the text analysis domain. Then, we progressively build three novel, hierarchy-free, similarity measures and discuss their strengths and weaknesses. We end up with a measure, the Weighted Extended Jaccard Similarity (WEJS) that combines information regarding the user interests (in the form of user preference-related weights) and specific item’s characteristics (in the form of particular values for the item’s features). As such, the use of WEJS allows the provision of recommendations that are effectively personalized. Interestingly, though it is a hierarchy-free measure, it is able to recommend items based on others that would naturally appear close in a feature-based POIs hierarchy; while at the same time it is capable of capturing similarities among items that would be distant to each other in any hierarchy build solely based on the POIs’ features. Our systematic experimental evaluation using real-world data showcases the benefits and limitations of the various measures and confirms the effectiveness of WEJS in offering “rich” and personalized recommendations, so that it can be utilized as important sub-component of a complete Recommender System. Subsequently, we develop two novel recommender algorithms, a Content-based one and a Hybrid which combines (a) a Bayesian component used for eliciting user preferences, and (b) the aforementioned Content-based algorithm as recommendations component. The second component can in fact itself be considered a hybrid among two different algorithms exploiting semantic similarity measures: a hierarchy-based and WEJS, the non-hierarchy based one. We evaluate our approach via extensive simulations conducted on a real-world dataset constructed for the needs of a real mobile application for short-term visitors of the popular touristic destination of Agios Nikolaos, Crete, Greece. Our experiments verify that our algorithms result in effective personalized recommendations of touristic points of interests; while our final hybrid algorithm outperforms our exclusively Content-based recommender algorithms in terms of recommendations accuracy. Parts of the research results produced in this thesis appear in three scientific articles, two published after peer-review in a scientific journal and the proceedings of an international conference, and one currently under review., Στην παρούσα μεταπτυχιακή εργασία, προτείνουμε νέους αλγόριθμους συστάσεων οι οποίοι είναι ενσωματωμένοι σε ένα υβριδικό σύστημα συστάσεων με εφαρμογή στον τομέα του τουρισμού. Για το σκοπό αυτό, αρχικά διερευνούμε τη χρήση μέτρων σημασιολογικής ομοιότητας για βασισμένες στο Περιεχόμενο συστάσεις ώστε να προτείνουμε τουριστικά αξιοθέατα. Μελετάμε τρόπους ανάπτυξης ιεραρχιών σημείων ενδιαφέροντος (POIs) και επενεργούμε σε σε αυτά με γνωστές μετρικές ομοιότητας που προέρχονται από τον τομέα της ανάλυσης κειμένου. Στη συνέχεια, σταδιακά δημιουργούμε τρεις νέες μετρικές ομοιότητας που δεν αξιοποιούν ιεραρχίες POIs, και συζητάμε τα πλεονεκτήματά τους και τις αδυναμίες τους. Καταλήγουμε σε μία μετρική, την Weighted Extended Jaccard Similarity (WEJS) που συνδυάζει πληροφορίες σχετικά με τα ενδιαφέροντα των χρηστών (με τη μορφή των χρηστών βάρους που σχετίζεται με τις προτιμήσεις των χρηστών) και τα χαρακτηριστικά των αντικειμένων (με τη μορφή συγκεκριμένων τιμών για τα χαρακτηριστικά του αντικειμένου). Ως εκ τούτου, η χρήση της WEJS επιτρέπει την παροχή συστάσεων που είναι αποτελεσματικά εξατομικευμένες. Είναι ενδιαφέρον ότι, αν και πρόκειται για μία μετρική χωρίς ιεραρχία, είναι σε θέση να συστήνει αντικείμενα που θα ήταν κοντινά εντός μιας ιεραρχίας POI με βάση τα χαρακτηριστικά - ενώ ταυτόχρονα είναι ικανή να καταγράφει ομοιότητες μεταξύ αντικειμένων που θα ήταν απομακρυσμένα μεταξύ τους σε οποιασδήποτε ιεραρχία που δημιουργείται αποκλειστικά με βάση τα χαρακτηριστικά των POIs. Η συστηματική πειραματική μας αξιολόγηση με τη χρήση πραγματικών δεδομένων αναδεικνύει τα οφέλη και τους περιορισμούς του διαφόρων μετρικών ομοιότητας, και επιβεβαιώνει την αποτελεσματικότητα της WEJS στην προσφορά "πλούσιων" και εξατομικευμένων συστάσεων, έτσι ώστε να μπορεί να χρησιμοποιηθεί ως σημαντικό υποστοιχείο ενός πλήρους Συστήματος Συστάσεων. Στη συνέχεια, αναπτύσσουμε δύο νέους Αλγορίθμους Συστάσεων, ένα Βασισμένο στο Περιεχόμενο και ένα Υβριδικό, ο οποίος συνδυάζει (α) ένα Bayesian αλγόριθμο που χρησιμοποιείται για την ανάδειξη των προτιμήσεων των χρηστών και (β) τον προαναφερθέντα αλγόριθμο βασισμένο σε Περιεχόμενο ως σύστημα συστάσεων. Το δεύτερο σύστημα μπορεί στην πραγματικότητα να θεωρηθεί το ίδιο ως υβρίδιο μεταξύ δύο διαφορετικών αλγορίθμων που εκμεταλλεύονται μετρικές σημασιολογικής ομοιότητας: ένα Βασισμένο στην Ιεραρχία, και το WEJS – που όπως προαναφέρθηκε δεν βασίζεται σε ιεραρχίες. Αξιολογούμε την προσέγγισή μας μέσω εκτεταμένων προσομοιώσεων που πραγματοποιήθηκαν σε ένα σύνολο πραγματικών δεδομένων που κατασκευάστηκε για τις ανάγκες μιας εφαρμογής κινητών συσκευών για συστάσεις τουριστικών διαδρομών (επικεντρωμένο στις ανάγκες βραχυπρόθεσμων επισκέψεων) του τουριστικού προορισμού του Αγίου Νικολάου στην Κρήτη. Τα πειράματά μας επαληθεύουν ότι οι αλγόριθμοί μας οδηγούν σε αποτελεσματικές εξατομικευμένες συστάσεις τουριστικών αξιοθέατων, ενώ ο τελικός μας Υβριδικός αλγόριθμος υπερτερεί έναντι των αλγορίθμων συστάσεων που Βασίζονται αποκλειστικά στο Περιεχόμενο όσον αφορά την ακρίβεια των συστάσεων. Μέρος της παραχθείσας στην παρούσα εργασία έρευνας και των αποτελεσμάτων της εμφανίζεται σε τρία επιστημονικά άρθρα, δυο δημοσιευμένα μετά από κρίση σε επιστημονικό περιοδικό και σε πρακτικά διεθνούς επιστημονικού συνεδρίου, και ένα το οποίο τελεί υπό κρίση κατά την τρέχουσα χρονική περίοδο.