Back to Search
Start Over
Analisis Perbandingan Teknik Word2vec dan Doc2vec dalam Mengukur Kemiripan Dokumen Menggunakan Cosine Similarity
- Source :
- Jurnal Teknologi Informasi dan Ilmu Komputer, Vol 12, Iss 1 (2025)
- Publication Year :
- 2025
- Publisher :
- University of Brawijaya, 2025.
-
Abstract
- Tempatkan Era digital memudahkan akses dokumen online dalam jumlah besar menjadi lebih mudah dan cepat, namun juga menimbulkan tantangan kompleks dalam pengelolaan dan analisis informasi. Salah satu tantangan utama adalah mengukur kemiripan antar dokumen, yang penting untuk berbagai aplikasi seperti deteksi plagiarisme. Menanggapi tantangan ini, banyak teknik yang dapat digunakan dalam merepresentasikan dokumen menjadi vektor untuk mengukur kemiripan dokumen. Dalam penelitian ini teknik Word2vec dan Doc2vec digunakan untuk merepresentasikan dokumen menjadi vektor, dan dalam mengukur kemiripan dokumen menggunakan metode Cosine Similarity. Objek penelitian dilakukan pada paragraf abstrak dari 20 jurnal ilmiah dengan tema data mining yang diterbitkan antara tahun 2020 hingga 2024 dari E-Journal Universitas Gunadarma. Metodologi penelitian meliputi pengumpulan data, text mining, pra-pemrosesan teks, implementasi teknik Word2vec dan Doc2vec, serta pengukuran Cosine Similarity. Hasil penelitian menunjukkan bahwa teknik Word2vec menghasilkan nilai Cosine Similarity yang lebih tinggi dibandingkan dengan Doc2vec untuk pasangan jurnal yang sama, dapat dilihat pada pasangan jurnal J02 dengan J14 memiliki nilai Cosine Similarity 0.892 pada teknik Word2vec, sedangkan pada Doc2vec nilainya 0.434. Hal ini menandakan bahwa hasil teknik Word2vec terbukti lebih efektif dalam menangkap kemiripan semantik antara jurnal-jurnal dibandingkan dengan teknik Doc2vec. Abstract The digital era has made access to many online documents easier and faster, but it has also created complex challenges in information management and analysis. One of the main challenges is measuring the similarity between documents, which is crucial for various applications such as plagiarism detection. In response to this challenge, many techniques can be used to represent documents as vectors to measure document similarity. In this research, Word2vec and Doc2vec techniques are used to represent documents as vectors, and Cosine Similarity is used to measure document similarity. The research objects are abstract paragraphs from 20 scientific journals on data mining published between 2020 and 2024 from Gunadarma University's E-Journal. The research methodology includes data collection, text mining, text pre-processing, Word2vec and Doc2vec techniques implementations, and Cosine Similarity measurement. The results show that the Word2vec technique produces higher Cosine Similarity values compared to Doc2vec for the same journal pairs, as seen in the journal pair J02 and J14 having a Cosine Similarity value of 0.892 using the Word2vec technique, while with Doc2vec the value is 0.434. This indicates that the Word2vec technique proves to be more effective in capturing semantic similarities between journals compared to the Doc2vec technique.
Details
- Language :
- Indonesian
- ISSN :
- 23557699 and 25286579
- Volume :
- 12
- Issue :
- 1
- Database :
- Directory of Open Access Journals
- Journal :
- Jurnal Teknologi Informasi dan Ilmu Komputer
- Publication Type :
- Academic Journal
- Accession number :
- edsdoj.8e67ca7e748d493aa03280ef7dafa6e9
- Document Type :
- article
- Full Text :
- https://doi.org/10.25126/jtiik.20251219143