PENGGUNAAN WORD EMBEDDING UNTUK BILINGUAL INFORMATION RETRIEVAL BAHASA INGGRIS-BAHASA INDONESIA

Richard Lois Setiawan (2024) PENGGUNAAN WORD EMBEDDING UNTUK BILINGUAL INFORMATION RETRIEVAL BAHASA INGGRIS-BAHASA INDONESIA. Final Year Projects (S1) thesis, Universitas Kristen Duta Wacana.

[img] Text (Skripsi Informatika)
71200594_bab1_bab5_daftarpustaka.pdf

Download (3MB)
[img] Text (Skripsi Informatika)
71200594_bab2-sd-bab4_lampiran.pdf
Restricted to Registered users only

Download (2MB) | Request a copy

Abstract

Dalam era digital, informasi memainkan peran penting yang mendominasi berbagai aspek kehidupan. Namun, banyak informasi penting seperti jurnal, artikel, dan publikasi penelitian tersedia dalam Bahasa Inggris. Informasi ini sering kali sulit diterjemahkan dengan akurat ke Bahasa Indonesia. Untuk itu referensi asli dalam bahasa Inggris tetap menjadi kebutuhan utama. Kesulitan dalam menemukan informasi dalam bahasa Inggris sering kali disebabkan oleh keterbatasan dalam menuliskan kata kunci, sehingga lebih praktis menuliskannya dalam bahasa Indonesia. Penelitian ini bertujuan mengatasi tantangan ini dengan pendekatan Bilingual Information Retrieval (BIR) dan menggunakan teknik word embedding untuk merepresentasikan data. Data yang digunakan bersumber dari Wikipedia, terdiri dari 150 dokumen dalam bahasa Indonesia dan Inggris. Vektor word embedding dibuat menggunakan model Universal Sentence Encoder (USE) buatan Google. Vektor ini kemudian di indeks menggunakan Facebook AI Similarity Search (FAISS). Untuk melakukan pencarian maka dibentuk juga vektor embedding dari kueri yang kemudian dibandingkan dengan vektor di indeks menggunakan berbagai model indeks yang disediakan dari FAISS. Sistem yang telah dibuat dievaluasi menggunakan metrik pengukuran precision, recall, dan f1-score. Word embedding berhasil diterapkan dalam pengembangan sistem BIR dengan. Model indeks FAISS yang digunakan ada 6 yaitu FlatIP (inner product), FlatL2 (euclidean distance), inverted file (IVF IP), Hierarchical Navigable Small World (HNSW), product quantization (PQ), dan IVF PQ. Sistem dievaluasi enam skenario pengujian dengan kueri berbagai bahasa dan jumlah dokumen yang diambil berbeda. Indeks FlatIP dan Flat L2 menunjukkan performa yang serupa dengan nilai precision, recall, dan F1-Score yang lebih rendah di semua skenario pengujian. Indeks IVF dengan 20 kluster memiliki mendapatkan precision dan recall yang tinggi. Indeks HNSW memiliki performa serupa dengan FlatIP dan FlatL2, namun dengan kueri berbahasa Inggris perofrmanya lebih baik. Indeks PQ memiliki performa terburuk dari semua skenario. Kombinasi indeks IVF IP 20 dan PQ menunjukkan performa yang baik di semua skenario.

Item Type: Student paper (Final Year Projects (S1))
Uncontrolled Keywords: word embedding, bilingual information retrieval, universal sentence encoder, FAISS
Subjects: Q Ilmu Pengetahuan > QA Matematika > QA76 Perangkat Lunak (Software) Komputer
T Teknologi > T Teknologi (Umum)
Divisions: Fakultas Teknologi Informasi > Prodi Informatika
Depositing User: Beatrix Stefany
Date Deposited: 25 Sep 2024 04:19
Last Modified: 25 Sep 2024 04:19
URI: http://katalog.ukdw.ac.id/id/eprint/8956

Actions (login required)

View Item View Item