eprintid: 8956
rev_number: 9
eprint_status: archive
userid: 2098
dir: disk0/00/00/89/56
datestamp: 2024-09-25 04:19:08
lastmod: 2024-09-25 04:19:08
status_changed: 2024-09-25 04:19:08
type: thesis
metadata_visibility: show
contact_email: repository@staff.ukdw.ac.id
creators_name: , Richard Lois Setiawan
creators_id: 71200594
contributors_type: http://www.loc.gov/loc.terms/relators/THS
contributors_type: http://www.loc.gov/loc.terms/relators/THS
contributors_name: Krisnawati, Lucia Dwi
contributors_name: Mahastama, Aditya Wikan
contributors_id: 0516116901
contributors_id: 0505078201
title: PENGGUNAAN WORD EMBEDDING UNTUK BILINGUAL INFORMATION RETRIEVAL BAHASA INGGRIS-BAHASA INDONESIA
ispublished: pub
subjects: QA76
subjects: T1
divisions: tek_informatika
full_text_status: restricted
keywords: word embedding, bilingual information retrieval, universal sentence encoder, FAISS
abstract: Dalam era digital, informasi memainkan peran penting yang mendominasi berbagai aspek kehidupan. Namun, banyak informasi penting seperti jurnal, artikel, dan publikasi penelitian tersedia dalam Bahasa Inggris. Informasi ini sering kali sulit diterjemahkan dengan akurat ke Bahasa Indonesia. Untuk itu referensi asli dalam bahasa Inggris tetap menjadi kebutuhan utama. Kesulitan dalam menemukan informasi dalam bahasa Inggris sering kali disebabkan oleh keterbatasan dalam menuliskan kata kunci, sehingga lebih praktis menuliskannya dalam bahasa Indonesia. Penelitian ini bertujuan mengatasi tantangan ini dengan pendekatan Bilingual Information Retrieval (BIR) dan menggunakan teknik word embedding untuk merepresentasikan data.  Data yang digunakan bersumber dari Wikipedia, terdiri dari 150 dokumen dalam bahasa Indonesia dan Inggris. Vektor word embedding dibuat menggunakan model Universal Sentence Encoder (USE) buatan Google. Vektor ini kemudian di indeks menggunakan Facebook AI Similarity Search (FAISS). Untuk melakukan pencarian maka dibentuk juga vektor embedding dari kueri yang kemudian dibandingkan dengan vektor di indeks menggunakan berbagai model indeks yang disediakan dari FAISS. Sistem yang telah dibuat dievaluasi menggunakan metrik pengukuran precision, recall, dan f1-score.  Word embedding berhasil diterapkan dalam pengembangan sistem BIR dengan. Model indeks FAISS yang digunakan ada 6 yaitu FlatIP (inner product), FlatL2 (euclidean distance), inverted file (IVF IP), Hierarchical Navigable Small World (HNSW), product quantization (PQ), dan IVF PQ. Sistem dievaluasi enam skenario pengujian dengan kueri berbagai bahasa dan jumlah dokumen yang diambil berbeda. Indeks FlatIP dan Flat L2 menunjukkan performa yang serupa dengan nilai precision, recall, dan F1-Score yang lebih rendah di semua skenario pengujian. Indeks IVF dengan 20 kluster memiliki mendapatkan precision dan recall yang tinggi. Indeks HNSW memiliki performa serupa dengan FlatIP dan FlatL2, namun dengan kueri berbahasa Inggris perofrmanya lebih baik. Indeks PQ memiliki performa terburuk dari semua skenario. Kombinasi indeks IVF IP 20 dan PQ menunjukkan performa yang baik di semua skenario.
date: 2024-07-27
date_type: published
institution: Universitas Kristen Duta Wacana
department: Informatika
thesis_type: skripsi
thesis_name: other
funders: richardlois1@gmail.com
citation:   Richard Lois Setiawan  (2024) PENGGUNAAN WORD EMBEDDING UNTUK BILINGUAL INFORMATION RETRIEVAL BAHASA INGGRIS-BAHASA INDONESIA.  Final Year Projects (S1) thesis, Universitas Kristen Duta Wacana.   
document_url: https://katalog.ukdw.ac.id/8956/1/71200594_bab1_bab5_daftarpustaka.pdf
document_url: https://katalog.ukdw.ac.id/8956/2/71200594_bab2-sd-bab4_lampiran.pdf