eprintid: 8956 rev_number: 9 eprint_status: archive userid: 2098 dir: disk0/00/00/89/56 datestamp: 2024-09-25 04:19:08 lastmod: 2024-09-25 04:19:08 status_changed: 2024-09-25 04:19:08 type: thesis metadata_visibility: show contact_email: repository@staff.ukdw.ac.id creators_name: , Richard Lois Setiawan creators_id: 71200594 contributors_type: http://www.loc.gov/loc.terms/relators/THS contributors_type: http://www.loc.gov/loc.terms/relators/THS contributors_name: Krisnawati, Lucia Dwi contributors_name: Mahastama, Aditya Wikan contributors_id: 0516116901 contributors_id: 0505078201 title: PENGGUNAAN WORD EMBEDDING UNTUK BILINGUAL INFORMATION RETRIEVAL BAHASA INGGRIS-BAHASA INDONESIA ispublished: pub subjects: QA76 subjects: T1 divisions: tek_informatika full_text_status: restricted keywords: word embedding, bilingual information retrieval, universal sentence encoder, FAISS abstract: Dalam era digital, informasi memainkan peran penting yang mendominasi berbagai aspek kehidupan. Namun, banyak informasi penting seperti jurnal, artikel, dan publikasi penelitian tersedia dalam Bahasa Inggris. Informasi ini sering kali sulit diterjemahkan dengan akurat ke Bahasa Indonesia. Untuk itu referensi asli dalam bahasa Inggris tetap menjadi kebutuhan utama. Kesulitan dalam menemukan informasi dalam bahasa Inggris sering kali disebabkan oleh keterbatasan dalam menuliskan kata kunci, sehingga lebih praktis menuliskannya dalam bahasa Indonesia. Penelitian ini bertujuan mengatasi tantangan ini dengan pendekatan Bilingual Information Retrieval (BIR) dan menggunakan teknik word embedding untuk merepresentasikan data. Data yang digunakan bersumber dari Wikipedia, terdiri dari 150 dokumen dalam bahasa Indonesia dan Inggris. Vektor word embedding dibuat menggunakan model Universal Sentence Encoder (USE) buatan Google. Vektor ini kemudian di indeks menggunakan Facebook AI Similarity Search (FAISS). Untuk melakukan pencarian maka dibentuk juga vektor embedding dari kueri yang kemudian dibandingkan dengan vektor di indeks menggunakan berbagai model indeks yang disediakan dari FAISS. Sistem yang telah dibuat dievaluasi menggunakan metrik pengukuran precision, recall, dan f1-score. Word embedding berhasil diterapkan dalam pengembangan sistem BIR dengan. Model indeks FAISS yang digunakan ada 6 yaitu FlatIP (inner product), FlatL2 (euclidean distance), inverted file (IVF IP), Hierarchical Navigable Small World (HNSW), product quantization (PQ), dan IVF PQ. Sistem dievaluasi enam skenario pengujian dengan kueri berbagai bahasa dan jumlah dokumen yang diambil berbeda. Indeks FlatIP dan Flat L2 menunjukkan performa yang serupa dengan nilai precision, recall, dan F1-Score yang lebih rendah di semua skenario pengujian. Indeks IVF dengan 20 kluster memiliki mendapatkan precision dan recall yang tinggi. Indeks HNSW memiliki performa serupa dengan FlatIP dan FlatL2, namun dengan kueri berbahasa Inggris perofrmanya lebih baik. Indeks PQ memiliki performa terburuk dari semua skenario. Kombinasi indeks IVF IP 20 dan PQ menunjukkan performa yang baik di semua skenario. date: 2024-07-27 date_type: published institution: Universitas Kristen Duta Wacana department: Informatika thesis_type: skripsi thesis_name: other funders: richardlois1@gmail.com citation: Richard Lois Setiawan (2024) PENGGUNAAN WORD EMBEDDING UNTUK BILINGUAL INFORMATION RETRIEVAL BAHASA INGGRIS-BAHASA INDONESIA. Final Year Projects (S1) thesis, Universitas Kristen Duta Wacana. document_url: https://katalog.ukdw.ac.id/8956/1/71200594_bab1_bab5_daftarpustaka.pdf document_url: https://katalog.ukdw.ac.id/8956/2/71200594_bab2-sd-bab4_lampiran.pdf