@phdthesis{katalog6633, month = {November}, title = {PENERAPAN PERMODELAN TOPIK UNTUK PENCARIAN DOKUMEN TERMIRIP}, author = {Joseph Fernando Lim 71170141}, year = {2021}, school = {Universitas Kristen Duta Wacana}, keywords = {TFIDF, Pemodelan Topik, Pencarian Dokumen, Kolokasi, Lexikat}, url = {https://katalog.ukdw.ac.id/6633/}, abstract = {Sebuah dokumen sering kali sulit diproses oleh komputer karena jika setiap kata dijadikan fitur maka dimensi data akan sangat besar dan akan memperlambat atau bahkan tidak memungkinkan untuk diproses (Shahmirzadi, Lugowski, \& Younge, 2018). Salah satu pendekatan untuk mengatasi masalah tersebut adalah pemodelan topik. Pemodelan topik sering kali digunakan untuk menemukan pola-pola yang ada pada dokumen. Daripada menggunakan setiap kata sebagai fitur, akan lebih efektif jika hanya menggunakan beberapa kata saja untuk merepresentasikan suatu dokumen. Salah satu platform yang menyediakan produk pemodelan topik adalah Lexikat. Penelitian ini berfokus pada penggunaan topik yang dihasilkan Lexikat sebagai fitur untuk mencari dokumen termirip. Term dan bobot dari topik yang dihasilkan Lexikat akan digunakan sebagai fitur. Fitur dari dokumen ini akan diukur kemiripannya dengan fitur dari dokumen lain menggunakan cosine similarity. Penulis akan menggunakan dataset 20Newsgroups dan bereksperimen dengan algortima Lexikat dengan mengubah parameter dan pembobotan untuk pemodelan topik. Hasil menunjukkan bahwa pemodelan topik yang menggunakan pembobotan TF-IDF menghasilkan skor terbaik jika jumlah topik yang digunakan sebagai query hanya 1 yaitu F-measure sebesar 0.323 dan break-even point sebesar 0.307, sedangkan pembobotan TF menghasilkan skor terbaik jika jumlah topik yang digunakan sebesar 50 yaitu dengan F-measure 0.274, dan break-even point sebesar 0.265. Pencarian dokumen menggunakan query dari pemodelan topik Lexikat berhasil mengurangi waktu pengukuran kemiripan dokumen sebanyak 50\%-90\%.} }