IDENTIFIKASI BAHASA JAWA VS INDONESIA DENGAN ALGORITMA PANJANG KATA BERBASIS LEKSIKON

71140022, Stephani Nugroho (2019) IDENTIFIKASI BAHASA JAWA VS INDONESIA DENGAN ALGORITMA PANJANG KATA BERBASIS LEKSIKON. Bachelor thesis, Universitas Kristen Duta Wacana.

[img] Text (Skripsi Informatika)
71140022_bab1_bab5_daftarpustaka.pdf

Download (345kB)
[img] Text (Skripsi Informatika)
71140022_bab2-sd-bab4_lampiran.pdf
Restricted to Registered users only

Download (1MB) | Request a copy

Abstract

Identifikasi bahasa (Language Identifier) merupakan langkah awal dari sistem pemrosesan teks untuk menentukan suatu bahasa dimana teks yang digunakan tertulis. Sistem identifikasi bahasa yang akan dirancang lebih mengacu pada bahasa dengan sumber digital yang masih rendah (under-resourced languages) yaitu bahasa Jawa. Tujuan dari perancangan sistem ini adalah untuk mengidentifikasi dokumen kedua bahasa dengan algoritma Panjang Kata berbasis leksikon. Pada penelitian ini, penulis menggunakan metode panjang kata berbasis leksikon untuk mempercepat pencarian kata dari pembangunan leksikon kemudian membandingkan dokumen uji dengan hasil sistem. Pra-pemrosesan dalam penelitian ini terbagi dalam 2 tahap yaitu normalisasi yang terdiri dari case folding, dan tokenisasi. Proses pengecekan dilakukan dengan menggunakan algoritma panjang kata yang terbagi menjadi 8 kategori karakter huruf. Hasil output sistem berupa kalimat yang telah terindentifikasi sesuai dengan bahasa yang ditemukan. Nilai akhir sistem didapatkan dari presentase jumlah kalimat terbesar yang didapatkan dari total masing – masing kalimat dibagi dengan seluruh kalimat di dalam dokumen. Hasil akurasi yang didapatkan sebesar 100 % karena dokumen tersebut seluruhnya teridentifikasi kalimat baik Bahasa Indonesia maupun bahasa Jawa melalui penggunaan metode panjang kata berbasis leksikon. Kelemahan sistem adalah sistem mengindentifikasi kalimat Lain yang diperoleh jika jumlah kata bahasa Jawa sama dengan jumlah kata bahasa Indonesia. Hal ini disebabkan karena terdapat kata yang sama pada leksikon bahasa Jawa dan bahasa Indonesia sehingga teridentifikasi pada kedua bahasa.

Item Type: Thesis (Bachelor)
Subjects: P Language and Literature > PL Languages and literatures of Eastern Asia, Africa, Oceania
Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Divisions: Fakultas Teknologi Informasi > Prodi Informatika
Depositing User: Mr Brayen Samuel Paendong
Date Deposited: 05 Mar 2020 02:46
Last Modified: 23 Jun 2021 02:19
URI: http://katalog.ukdw.ac.id/id/eprint/454

Actions (login required)

View Item View Item