Back to Search Start Over

Automated semantic tagging of text documents

Authors :
Kalender, Murat
Üsküdarlı, Suzan
Bilgisayar Mühendisliği Anabilim Dalı
Publication Year :
2010
Publisher :
Fen Bilimleri Enstitüsü, 2010.

Abstract

Belgelerin katlanarak büyümesi mevcut arama ve içerik yönetim teknolojilerini zorlamaktadır. Bu sorunu azaltmak için bir yaklaşım belgeların kullanıcılar tarafından seçilen belgelerde geçen önemli kelimelerle etiketlenmesidir. Ancak bu yaklaşımın etiketleri sınırlıdır çünkü etiketler i) bağlam ve form özgür, ii) belgeleri tanımlamadan farklı amaçlarda kullanılabiliyor iii) genellikle belirsiz kalıyorlar. Etiketleme gönüllü bir eylem olduğundan dolayı çok sayıda belge etiketlenmemektedir. Son olarak, belgelere atanan etiketlerin yorumlanmasıda ayrı bir zorluktur.Anlamsal web kaynakları ve teknolojileri, bu zorlukları aşmak ve otomatik olarak semantik etiketler oluşturmak için kullanılabilir. Semantik etiketler belgelerin içeriğini daha iyi ifade etme dışında, daha iyi arama sonuçları elde etmemizi sağlamaktadır. Ontoloji kapsamı, terimlerin ontolojide doğru kavramlarla ilişkilendirilmesi ve anlamsal etiketlerin ağırlıklarının belirlenmesi anlamsal etiketleme sistemlerinde çözülmesi gereken önemli sorunlardır.İngilizce için önde gelen ontoloji olan WordNet başarıyla anlamsal etiketleme için kullanılmaktadır. Ancak bu yaklaşım yeni kavramlar içeren belgeleri etiketlemede yetersiz kalmaktadır.Bu çalışma belgeler için otomatik olarak anlamsal etiketler oluşturan bir sistem önermektedir. Bu amaçla, ilk katkımız ontolojik bilgi tabanı platformu olan UNIpedia' dır. UNIpedia çağdaş referansları içeren bir bilgi tabanı sağlamaktır. Burada, çağdaş kelimesi web de geçen güncel kelimeler bağlamında kullanılmaktadır. UNIpedia çeşitli ontolojik bilgi tabanlarını WordNet kavramlarıyla ilişkilendirmektedir. Güncel ve güvenilir bilgi içeren Wikipedia ve OpenCyc bilgi tabanları WordNet kavramları ile eşleştirilmiştir. Bilgi tabanlarını ilişkilendirmek için kavramların ontolojik ve istatistiksel özelliklerini kullanan kural tabanlı sezgiseller kullanılmıştır.Konuşma dillerinin çok anlamlılığından dolayı UNIpedia' da tanımlı terimler birden fazla anlam içerebilmektedir. Bu çok anlamlı kelimeler dökümanın içeriğine göre farklı anlamlar alabilmektedirler. Belgede geçen terimler çok anlamlıysa doğrudan UNIpedia kavramlarıyla ilişkilendirilememektedir. Terimlerin doğru anlamlarını bulabilmek için otomatik anlamsal etiketleme sistemi olan Semantic TagPrint geliştirilmiştir. Bu eserin ikinci katkısı olanSemantic TagPrint anlam belirginleştirmesi için doğrusal zamanda çalışan kelime zincirlerini kullanmaktadır. Buna ek olarak, Semantik TagPrint belgenin içeriğini açıklayan anlamsal etiketlerin önemini belirler ve önerir. Anlamsal etiketleme ve önerme algoritmaları UNIpedia da tanımlı olan kavramların istatistiksel ve anlamsal özelliklerini kullanmaktadır. Semantik TagPrint sisteminin potansiyel yararlarını göstermek için Anlamsal Bilgi Yönetimi Aracı (SKMT) uygulanması tasarlanmış ve geliştirilmiştir. Bu eserin üçüncü katkısı olan SKMT semantik belgeleri etiketlemek için Semantik TagPrint için erişilebilir bir platform sunar ve semantik arama yapar. The exponential growth of documents is challenging the existing search and content management technology. An approach for mitigating this issue is user-generated tags, a simple method by which users associate keywords to documents. However, the improvements, from this approach are limited because tags are i) free from context and form, ii) used for purposes other than description, and iii) often remain ambiguous. Since user tagging is a voluntary action, many documents remain untagged. Finally, the interpretation of the tags associated with documents also remains a challenge.To overcome these challenges, semantic web resources and technologies can be utilized to automatically generate semantic tags. Semantic tags not only reflect document content more accurately, they also enable better search results. Ontology coverage, word sense disambiguation and weighting significant ontological entities within a context are key challenges in semantic tagging systems.The leading ontology for the English language, Wordnet, has been successfully used for semantic tagging. However, this approach falls short in tagging documents that refer to new concepts and instances.The main focus of this work is automatically generating semantic tags for arbitrary documents. For this purpose, the first contribution is an ontological knowledge base plat- form called UNIpedia. UNIpedia aims to provide a knowledge base with contemporary references. Here, contemporary should be understood as in line with web pace. UNIpedia maps various ontological knowledge bases to WordNet concepts. The Wikipedia and OpenCyc knowledge bases, which are known to contain up to date instances and reliable metadata about them, were mapped to WordNet. A rule based heuristics, which uses the ontological and statistical features of concepts and instances, is introduced for the mapping process.UNIpedia terms may have several senses because of the natural language ambiguity. These so called polysemous terms get different meanings according to the context. A term passing in a document cannot be mapped to an UNIpedia concept or instance directly, if the term is polysemous. In order to identify the correct sense of the polysemous terms, an automated semantic tagging system called Semantic TagPrint was devised. Semantic TagPrint is the second contribution of this work that uses a linear time lexical chaining Word Sense Disambiguation algorithm for semantic annotation. In addition, Semantic TagPrint weighs and recommends semantic tags which describe the content of a document well. The semantic annotation and semantic tag weighting algorithms use both semantic and statistical features of UNIpedia.The potential benefits of Semantic TagPrint are demonstrated by the design and implementation of the Semantic Knowledge Management Tool (SKMT). SKMT is the third contribution of this work that provides a user accessible platform for Semantic TagPrint to semantically tag documents, and performs semantic searches. 122

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.od.....10208..a394a100b4316783d9381432c370674d