PENGGUNAAN PEMODELAN TOPIK DALAM SISTEM TEMU KEMBALI DOKUMEN TERMIRIP

Lucia Dwi Krisnawati and Gloria Virginia and Joseph Fernando Lim (2023) PENGGUNAAN PEMODELAN TOPIK DALAM SISTEM TEMU KEMBALI DOKUMEN TERMIRIP. Jurnal Linguistik Komputasional, 6 (1). pp. 1-10. ISSN 2621-9336

[img] Text (Artikel Publikasi)
Penggunaan Pemodelan Topik.pdf - Published Version

Download (777kB)

Abstract

Sistem temu kembali didesain untuk menemukan informasi yang relevan dengan kueri pengguna, sedangkan pencarian dan penemuan dokumen termirip secara leksikal maupun sintaksi masuk ranah sistem deteksi plagiasi dan Daur Ulang teks (text reuse) yang membutuhkan sistem temu kembali sebagai salah satu modul di awalnya. Perbedaan keduanya terletak di bentuk kueri, dimana sistem temu kembali menerima kueri dengan jumlah token yang terbatas, sedangkan kueri dalam sistem deteksi plagiasi diolah dari sebuah dokumen input. Penelitian ini mencoba membangun sistem temu kembali untuk menemukan kandidat dokumen termirip yang diperlukan oleh kedua sistem tersebut. Untuk itu, pembentukan kueri dokumen input dihasilkan dengan memanfaatkan sistem Pemodelan Topik Lexikat. Elemen dari kumpulan topik ini kemudian diindek dalam Inverted Index maupun menjadi kueri dari dokumen uji. Metrik kemiripan Cosine digunakan untuk mengukur kemiripan antara kueri dokumen uji dengan dokumen sumber yang telah diindeks. Evaluasi sistem dilakukan dengan menggunakan metrik Macro-Averaged F1 (MAF) dan Break-Even Point (BEP). Eksperimen dilakukan dengan menggunakan 1-50 topik di tiap dokumen uji yang berjumlah 474. Hasil eksperimen dengan 11 skenario pengujian menunjukkan nilai MAF tertinggi mencapai 0.32 – 0.33 saat menggunakan 1 topik sebagai kueri. Nilai ini relatif kecil karena tidak diterapkan nilai ambang dari persamaan Cosine sebagai proses penyaringan (filtering) dokumen yang akan dievaluasi. Jumlah dokumen minimal yang diperlukan untuk mencapai nilai BEP tertinggi adalah 243. Jumlah dokumen ini bisa dijadikan rekomendasi sebagai nilai ambang dalam proses penyaringan dokumen.

Item Type: Article
Uncontrolled Keywords: Pemodelan Topik, Sistem Temu Kembali, Lexikat, Kemiripan Dokumen, pembentukan kueri
Subjects: T Teknologi > T Teknologi (Umum)
Divisions: Fakultas Teknologi Informasi
Depositing User: Beatrix Stefany
Date Deposited: 06 Sep 2024 05:22
Last Modified: 06 Sep 2024 05:22
URI: http://katalog.ukdw.ac.id/id/eprint/9121

Actions (login required)

View Item View Item