71170141, Joseph Fernando Lim (2021) PENERAPAN PERMODELAN TOPIK UNTUK PENCARIAN DOKUMEN TERMIRIP. Final Year Projects (S1) thesis, Universitas Kristen Duta Wacana.
Text (Skripsi Informatika)
71170141_bab1_bab5_daftarpustaka.pdf Download (2MB) |
|
Text (Skripsi Informatika)
71170141_bab2 s.d bab4_lampiran.pdf Restricted to Registered users only Download (5MB) | Request a copy |
Abstract
Sebuah dokumen sering kali sulit diproses oleh komputer karena jika setiap kata dijadikan fitur maka dimensi data akan sangat besar dan akan memperlambat atau bahkan tidak memungkinkan untuk diproses (Shahmirzadi, Lugowski, & Younge, 2018). Salah satu pendekatan untuk mengatasi masalah tersebut adalah pemodelan topik. Pemodelan topik sering kali digunakan untuk menemukan pola-pola yang ada pada dokumen. Daripada menggunakan setiap kata sebagai fitur, akan lebih efektif jika hanya menggunakan beberapa kata saja untuk merepresentasikan suatu dokumen. Salah satu platform yang menyediakan produk pemodelan topik adalah Lexikat. Penelitian ini berfokus pada penggunaan topik yang dihasilkan Lexikat sebagai fitur untuk mencari dokumen termirip. Term dan bobot dari topik yang dihasilkan Lexikat akan digunakan sebagai fitur. Fitur dari dokumen ini akan diukur kemiripannya dengan fitur dari dokumen lain menggunakan cosine similarity. Penulis akan menggunakan dataset 20Newsgroups dan bereksperimen dengan algortima Lexikat dengan mengubah parameter dan pembobotan untuk pemodelan topik. Hasil menunjukkan bahwa pemodelan topik yang menggunakan pembobotan TF-IDF menghasilkan skor terbaik jika jumlah topik yang digunakan sebagai query hanya 1 yaitu F-measure sebesar 0.323 dan break-even point sebesar 0.307, sedangkan pembobotan TF menghasilkan skor terbaik jika jumlah topik yang digunakan sebesar 50 yaitu dengan F-measure 0.274, dan break-even point sebesar 0.265. Pencarian dokumen menggunakan query dari pemodelan topik Lexikat berhasil mengurangi waktu pengukuran kemiripan dokumen sebanyak 50%-90%.
Item Type: | Student paper (Final Year Projects (S1)) |
---|---|
Uncontrolled Keywords: | TFIDF, Pemodelan Topik, Pencarian Dokumen, Kolokasi, Lexikat |
Subjects: | Q Ilmu Pengetahuan > Matematika > Komputer Elektronik. Ilmu Komputer |
Divisions: | Fakultas Teknologi Informasi > Prodi Informatika |
Depositing User: | Admin Repository |
Date Deposited: | 25 Mar 2022 04:23 |
Last Modified: | 25 Mar 2022 04:23 |
URI: | http://katalog.ukdw.ac.id/id/eprint/6633 |
Actions (login required)
View Item |