eprintid: 9121
rev_number: 10
eprint_status: archive
userid: 2098
dir: disk0/00/00/91/21
datestamp: 2024-09-06 05:22:27
lastmod: 2024-09-06 05:22:27
status_changed: 2024-09-06 05:22:27
type: article
metadata_visibility: show
contact_email: repository@staff.ukdw.ac.id
creators_name: , Lucia Dwi Krisnawati
creators_name: , Gloria Virginia
creators_name: , Joseph Fernando Lim
creators_id: 0516116901
creators_id: 0518017901
creators_id: 71170141
title: PENGGUNAAN PEMODELAN TOPIK DALAM SISTEM TEMU KEMBALI DOKUMEN TERMIRIP
ispublished: pub
subjects: T1
divisions: fak_tein
full_text_status: public
keywords: Pemodelan Topik, Sistem Temu Kembali, Lexikat, Kemiripan Dokumen, pembentukan kueri
abstract: Sistem temu kembali didesain untuk menemukan informasi yang relevan dengan kueri pengguna, sedangkan pencarian dan penemuan dokumen termirip secara leksikal maupun sintaksi masuk ranah sistem deteksi plagiasi dan Daur Ulang teks (text reuse)  yang membutuhkan sistem temu kembali sebagai salah satu modul di awalnya. Perbedaan keduanya terletak di bentuk kueri, dimana sistem temu kembali menerima kueri dengan jumlah token yang terbatas, sedangkan kueri dalam sistem deteksi plagiasi diolah dari sebuah dokumen input. Penelitian ini mencoba membangun sistem temu kembali untuk menemukan kandidat dokumen termirip yang diperlukan oleh kedua sistem tersebut. Untuk itu, pembentukan kueri dokumen input dihasilkan dengan memanfaatkan sistem Pemodelan Topik Lexikat. Elemen dari kumpulan topik ini kemudian diindek dalam Inverted Index maupun menjadi kueri dari dokumen uji. Metrik kemiripan Cosine digunakan untuk mengukur kemiripan antara kueri dokumen uji dengan dokumen sumber yang telah diindeks. Evaluasi sistem dilakukan dengan menggunakan metrik Macro-Averaged F1 (MAF) dan Break-Even Point (BEP). Eksperimen dilakukan dengan menggunakan 1-50 topik di tiap dokumen uji yang berjumlah 474. Hasil eksperimen dengan 11 skenario pengujian menunjukkan nilai MAF tertinggi mencapai 0.32 – 0.33 saat menggunakan 1 topik sebagai kueri. Nilai ini relatif kecil karena tidak diterapkan nilai ambang dari persamaan Cosine sebagai proses penyaringan (filtering) dokumen yang akan dievaluasi. Jumlah dokumen minimal yang diperlukan untuk mencapai nilai BEP tertinggi  adalah 243. Jumlah dokumen ini bisa dijadikan rekomendasi sebagai nilai ambang dalam proses penyaringan dokumen.
date: 2023-04-03
publication: Jurnal Linguistik Komputasional
volume: 6
number: 1
publisher: Indonesia Association of Computational Linguistics (INACL)
pagerange: 1-10
id_number: doi:10.26418/jlk.v6i1.78
refereed: TRUE
issn: 2621-9336
official_url: https://doi.org/10.26418/jlk.v6i1.78
funders: krisna@staff.ukdw.ac.id
citation:   Lucia Dwi Krisnawati and Gloria Virginia and Joseph Fernando Lim  (2023) PENGGUNAAN PEMODELAN TOPIK DALAM SISTEM TEMU KEMBALI DOKUMEN TERMIRIP.  Jurnal Linguistik Komputasional, 6 (1).  pp. 1-10.  ISSN 2621-9336     
document_url: https://katalog.ukdw.ac.id/9121/1/Penggunaan%20Pemodelan%20Topik.pdf