TY  - THES
TI  - SISTEM IDENTIFIKASI BAHASA JAWA DAN BAHASA INDONESIA DOKUMEN TEKS BERBASIS KARAKTER N-GRAM
Y1  - 2019/07//
ID  - katalog382
AV  - restricted
A1  - 71140005, Fidelia Vera Sentosa
N2  - Dalam beberapa tahun terakhir, jumlah akan ketersediaan dokumen semakin bertambah dan beragam seiring dengan berkembangnya internet. Namun, informasi maupun data yang ada bersifat heterogen dan tidak terstruktur sehingga sulit untuk dikumpulkan secara manual. Maka, dibutuhkan suatu sistem yang dapat melakukan pengidentifikasian bahasa secara otomatis menggunakan komputer, supaya lebih efisien jika dibandingkan dengan cara manual manusia.
Klasifikasi dokumen teks merupakan permasalahan mendasar dan penting. Mengingat bahwa bahasa Indonesia merupakan under resource langauge sama halnya dengan bahasa Jawa, maka identifikasi bahasa sangat diperlukan. Oleh karena itu, permasalahan ini merupakan masalah yang bisa dikatakan cukup kompleks dikarenakan penggunaan kata yang tergolong tidak sedikit. Salah satu metode yang dapat digunakan untuk mengklasifikasikan naskah dokumen tersebut adalah menggunakan n-gram. Sistem identifikasi bahasa Jawa dan bahasa Indonesia dengan karakter n-gram yang telah dikembangkan membuktikan bahwa berhasil mengidentifikasi bahasa dari sebuah naskah dokumen dengan nilai akurasi 85,07463%. Hal ini menunjukkan bahwa n-gram dapat diterapkan untuk mengidentifikasikan suatu naskah dokumen.
EP  - 48
M1  - skripsi
UR  - https://katalog.ukdw.ac.id/382/
KW  - Identifikasi Bahasa
KW  -  N-gram
KW  -  Bahasa Jawa
KW  -  Bahasa Indonesia.
PB  - Universitas Kristen Duta Wacana
ER  -