Ο Σημασιολογικός Ιστός (ΣΙ) είναι μια απόπειρα ανάπτυξης προτύπων και τεχνολογιών που θα επιτρέπουν στους υπολογιστές να εντοπίζουν και να επεξεργάζονται ευκολότερα πόρους (έγγραφα, δεδομένα, υπηρεσίες) του Παγκόσμιου Ιστού. Κεντρικό ρόλο στο ΣΙ παίζουν οι οντολογίες. Μια οντολογία αποτελεί τον ορισμό μιας θεματικής περιοχής (π.χ., ηλεκτρονικά προϊόντα) ορίζοντας τις τάξεις και υποτάξεις των αντικειμένων του πεδίου, τους τύπους πιθανών σχέσεων μεταξύ τους κ.τ.λ. Το τρέχον επικρατών πρότυπο για τον ορισμό του Σημασιολογικού Ιστού είναι η OWL, μια τυπική γλώσσα που βασίζεται στην περιγραφική λογική και στην RDF, με την OWL 2 να αποτελεί την πιο πρόσφατη έκδοση του προτύπου OWL. Δεδομένης μιας οντολογίας OWL για κάποια θεματική περιοχή, κάποιος μπορεί να εκδώσει στον Ιστό δεδομένα, τα οποία μπορούν να διαβαστούν από υπολογιστές, σχετικά με αυτή την περιοχή (π.χ., καταλόγους προϊόντων, τα στοιχεία τους κ.τ.λ.), με τα δεδομένα αυτά να έχουν τυπικά ορισμένη σημασιολογία που βασίζεται στον ορισμό της οντολογίας. Έχουν αναπτυχθεί διάφορα συντακτικά OWL, αλλά όσοι δεν είναι είναι εξοικειωμένοι με τυπικές αναπαραστάσεις γνώσης συχνά έχουν δυσκολίες στην κατανόηση τους. Αυτή η διατριβή εξέτασε μεθόδους που επιτρέπουν σε τελικούς χρήστες να δουν αναπαραστάσεις γνώσης βασισμένες σε οντολογίες του Σημασιολογικού Ιστού στην μορφή αυτόματα παραγόμενων κειμένων σε πολλαπλές φυσικές γλώσσες.Το πρώτο μέρος της διατριβής βελτιώνει το NaturalOWL, ένα σύστημα Παραγωγής Φυσικής Γλώσσας από οντολογίες OWL που είχε αναπτυχθεί παλιότερα στο ΟΠΑ. Το σύστημα τροποποιήθηκε ώστε να υποστηρίζει την OWL 2 και να μπορεί να παράγει υψηλότερης ποιότητας κείμενα. Πειράματα έδειξαν ότι τα κείμενα που παράχθηκαν από την νέα έκδοση του NaturalOWL είναι πράγματι υψηλής ποιότητας και σημαντικά καλύτερα από κείμενα που παράχθηκαν από απλούστερα συστήματα, συχνά γνωστά ως ontology verbalizers, δεδομένου ότι οι απαραίτητοι γλωσσικοί πόροι (π.χ., σχέδια προτάσεων που εκφράζουν σχέσεις) είναι διαθέσιμοι στο NaturalOWL. Το δεύτερο μέρος της διατριβής εξέτασε μεθόδους εξόρυξης κειμένου και μηχανικής μάθησης για να εξάγει από τον Ιστό αυτόματα ή ήμι-αυτόματα τους πιο σημαντικούς γλωσσικούς πόρους που το NaturalOWL χρειάζεται για να παραγάγει κείμενα υψηλής ποιότητας. Πειράματα έδειξαν ότι η ήμι-αυτόματη προσέγγιση, όπου ένας άνθρωπος εξετάζει τους αυτόματα παραγόμενους γλωσσικούς πόρους, επιτρέπει στο NaturaOWL να παράγει κείμενα σχεδόν της ίδιας ποιότητας όσο με γλωσσικούς πόρους που έχουν συγγραφεί χειρωνακτικά από το μηδέν. Το τρίτο μέρος της διατριβής στόχευε να βελτιώσει περαιτέρω την ποιότητα των παραγόμενων κειμένων αναπτύσσοντας ένα μοντέλο Ακέραιο Γραμμικού Προγραμματισμού που εξετάζει παράλληλα την επιλογή περιεχομένου, την λεξικοποίηση, τον συνδυασμό προτάσεων, και μια περιορισμένη μορφή της παραγωγής αναφορικών εκφράσεων, σε αντίθεση με την αρχιτεκτονική διασωλήνωσης των περισσότερων συστημάτων Παραγωγής Φυσικής Γλώσσας, όπου τα τέσσερα στάδια εξετάζονται άπληστα το ένα μετά το άλλο. Πειράματα έδειξαν ότι το νέο μοντέλο επιτρέπει στο NaturalOWL να εκφράζει περισσότερες πληροφορίες ανά λέξη, το οποίο είναι χρήσιμο όταν ο χώρος είναι περιορισμένος (π.χ., στις διαφημίσεις), χωρίς κάποια αντιληπτή αλλοίωση στην ποιότητα των παραγόμενων κειμένων.Καθ’ όλη τη διατριβή, χρησιμοποιήθηκαν οντολογίες από διάφορες θεματικές περιοχές (π.χ., πολιτιστική κληρονομιά, ηλεκτρονικά προϊόντα, βιοπληροφορική). Χρησιμοποιώντας τις μεθόδους αυτής της διατριβής, οργανισμοί (π.χ., εταιρίες, βιβλιοθήκες, μουσεία) μπορούν να εκδώσουν πληροφορίες στον Ιστό που να διαβάζονται από υπολογιστές (π.χ., πληροφορίες που προέρχονται από βάσεις δεδομένων) και είναι διαθέσιμες σε πολλαπλές φυσικές γλώσσες (κείμενα που παράγονται αυτόματα από δεδομένα). Με αυτό τον τρόπο οι πληροφορίες γίνονται πιο εύκολα διαθέσιμες και σε υπολογιστές και σε τελικούς χρήστες.