TY - THES TI - SISTEM IDENTIFIKASI BAHASA JAWA DAN BAHASA INDONESIA DOKUMEN TEKS BERBASIS KARAKTER N-GRAM Y1 - 2019/07// ID - katalog382 AV - restricted A1 - 71140005, Fidelia Vera Sentosa N2 - Dalam beberapa tahun terakhir, jumlah akan ketersediaan dokumen semakin bertambah dan beragam seiring dengan berkembangnya internet. Namun, informasi maupun data yang ada bersifat heterogen dan tidak terstruktur sehingga sulit untuk dikumpulkan secara manual. Maka, dibutuhkan suatu sistem yang dapat melakukan pengidentifikasian bahasa secara otomatis menggunakan komputer, supaya lebih efisien jika dibandingkan dengan cara manual manusia. Klasifikasi dokumen teks merupakan permasalahan mendasar dan penting. Mengingat bahwa bahasa Indonesia merupakan under resource langauge sama halnya dengan bahasa Jawa, maka identifikasi bahasa sangat diperlukan. Oleh karena itu, permasalahan ini merupakan masalah yang bisa dikatakan cukup kompleks dikarenakan penggunaan kata yang tergolong tidak sedikit. Salah satu metode yang dapat digunakan untuk mengklasifikasikan naskah dokumen tersebut adalah menggunakan n-gram. Sistem identifikasi bahasa Jawa dan bahasa Indonesia dengan karakter n-gram yang telah dikembangkan membuktikan bahwa berhasil mengidentifikasi bahasa dari sebuah naskah dokumen dengan nilai akurasi 85,07463%. Hal ini menunjukkan bahwa n-gram dapat diterapkan untuk mengidentifikasikan suatu naskah dokumen. EP - 48 M1 - skripsi UR - https://katalog.ukdw.ac.id/382/ KW - Identifikasi Bahasa KW - N-gram KW - Bahasa Jawa KW - Bahasa Indonesia. PB - Universitas Kristen Duta Wacana ER -