TY - THES PB - Universitas Kristen Duta Wacana UR - https://katalog.ukdw.ac.id/454/ M1 - skripsi EP - 49 N2 - Identifikasi bahasa (Language Identifier) merupakan langkah awal dari sistem pemrosesan teks untuk menentukan suatu bahasa dimana teks yang digunakan tertulis. Sistem identifikasi bahasa yang akan dirancang lebih mengacu pada bahasa dengan sumber digital yang masih rendah (under-resourced languages) yaitu bahasa Jawa. Tujuan dari perancangan sistem ini adalah untuk mengidentifikasi dokumen kedua bahasa dengan algoritma Panjang Kata berbasis leksikon. Pada penelitian ini, penulis menggunakan metode panjang kata berbasis leksikon untuk mempercepat pencarian kata dari pembangunan leksikon kemudian membandingkan dokumen uji dengan hasil sistem. Pra-pemrosesan dalam penelitian ini terbagi dalam 2 tahap yaitu normalisasi yang terdiri dari case folding, dan tokenisasi. Proses pengecekan dilakukan dengan menggunakan algoritma panjang kata yang terbagi menjadi 8 kategori karakter huruf. Hasil output sistem berupa kalimat yang telah terindentifikasi sesuai dengan bahasa yang ditemukan. Nilai akhir sistem didapatkan dari presentase jumlah kalimat terbesar yang didapatkan dari total masing ? masing kalimat dibagi dengan seluruh kalimat di dalam dokumen. Hasil akurasi yang didapatkan sebesar 100 % karena dokumen tersebut seluruhnya teridentifikasi kalimat baik Bahasa Indonesia maupun bahasa Jawa melalui penggunaan metode panjang kata berbasis leksikon. Kelemahan sistem adalah sistem mengindentifikasi kalimat Lain yang diperoleh jika jumlah kata bahasa Jawa sama dengan jumlah kata bahasa Indonesia. Hal ini disebabkan karena terdapat kata yang sama pada leksikon bahasa Jawa dan bahasa Indonesia sehingga teridentifikasi pada kedua bahasa. ID - katalog454 Y1 - 2019/07// TI - IDENTIFIKASI BAHASA JAWA VS INDONESIA DENGAN ALGORITMA PANJANG KATA BERBASIS LEKSIKON A1 - 71140022, Stephani Nugroho AV - restricted ER -