Back to Search Start Over

Text Content Analysis For Illicit Web Pages By Using Neural Networks

Authors :
Ali Selamat
Zhi Sam Lee
Mohd Aizaini Maarof
Siti Mariyam Shamsuddin
Source :
Jurnal Teknologi.
Publication Year :
2012
Publisher :
Penerbit UTM Press, 2012.

Abstract

Kandungan laman web haram seperti pornografi, keganasan dan perjudian telah dengan meluasnya mencemarkan pemikiran pengguna internet terutamanya golongan muda seperti kanakkanak dan muda–mudi. Oleh kerana kurang berkesannya beberapa teknik penapisan saringan laman sesawang yang popular seperti penyekatan Uniform Resource Locator (URL) dan penyemakan Platform for Internet Content Selection (PICS) terhadap kandungan sesawang yang dinamik pada masa kini, maka teknik penapisan yang berasaskan analisis kandungan sesawang secara berkesan amat diperlukan. Demi mengatasi masalah ini, kami telah mencadangkan suatu model penganalisis kandungan web berasaskan teks dengan menggunakan skema entropy term weighting untuk mengelaskan laman pornografi dan laman pendidikan seks dalam penulisan ini. Kajian terhadap keberkesanan skema entropy dijalankan dengan membandingkan skema entropy dengan dua skema pemberat perkataan yang umum, iaitu TFIDF dan Glasgow. Teknik–teknik ini telah diuji dengan rangkaian neural menggunakan dataset berkelas kecil. Dalam kajian ini, kami mendapati model yang dicadangkan telah mencapai prestasi yang lebih baik dari segi kejituan, kecepatan penumpuan dan kestabilan. Kata kunci: Rangkaian neural buatan; skema pemberat perkataan; penganalisis kandungan berasaskan teks; pengelasan saringan laman sesawang Illicit web contents such as pornography, violence, and gambling have greatly polluted the mind of web users especially children and teenagers. Due to the ineffectiveness of some popular web filtering techniques like Uniform Resource Locator (URL) blocking and Platform for Internet Content Selection (PICS) checking against today’s dynamic web contents, content based analysis techniques with effective model are highly desired. In this paper, we have proposed a textual content analysis model using entropy term weighting scheme to classify pornography and sex education web pages. We have examined the entropy scheme with two other common term weighting schemes that are TFIDF and Glasgow. Those techniques have been tested with artificial neural network using small class dataset. In this study, we found that our proposed model has achieved better performance in terms accuracy, convergence speed, and stability compared to the other techniques. Key words: Artificial neural network; term weighting scheme; textual content analysis; web pages classification

Details

ISSN :
21803722 and 01279696
Database :
OpenAIRE
Journal :
Jurnal Teknologi
Accession number :
edsair.doi...........92d43737d007ddd93f0263932c6f0600