ISOLATED-WORD ERROR CORRECTION PADA TEKS BERBAHASA INDONESIA

71110057, AMADEA KRISTINA BUDIMAN (2016) ISOLATED-WORD ERROR CORRECTION PADA TEKS BERBAHASA INDONESIA. Bachelor thesis, Universitas Kristen Duta Wacana.

[img] Text (Skripsi Informatika)
71110057_bab1_bab5_daftarpustaka.pdf

Download (1MB)
[img] Text (Skripsi Informatika)
71110057_bab2-sd-bab5_daftarpustaka.pdf
Restricted to Registered users only

Download (3MB) | Request a copy

Abstract

Data mentah yang terdapat dalam dokumen teks biasanya tidak terstruktur bentuknya sehingga tidak bisa digunakan untuk mendapatkan informasi secara baik. Oleh karena itu, diterapkan text preprocessing untuk mengolah suatu data mentah yang berupa teks. Salah satu penerapan text preprocessing adalah spelling correction. Dalam spelling correction terdapat teknik yang mengoreksi term tanpa memperhatikan konteks dari teks. Teknik tersebut bernama isolated-word error correction. Sebelum melakukan koreksi, diperlukan tahap nonword error detection yang berfungsi untuk memeriksa ejaan pada suatu term. Dalam penelitian ini penulis meneliti penerapan nonword error detection dan penggunaan Dice coefficient untuk melakukan isolated-word error correction serta Damerau-Levenshtein distance dan word frequency. Penulis juga meneliti pengaruh teknik tokenisasi pada k-gram menggunakan kombinasi susunan karakter. Evaluasi dilakukan menggunakan nilai precision, recall, dan f-measure pada 100 dokumen teks yang diambil dari ICL-corpus. Evaluasi dilakukan terhadap proses deteksi kesalahan dan koreksi kesalahan. Pada evaluasi koreksi kesalahan, setiap kombinasi metode yang menggunakan koefisien Dice akan dievaluasi berdasarkan variasi nilai threshold Dice, yaitu sebesar 0.2, 0.4, 0.6, dan 0.8. Pada evaluasi deteksi kesalahan, didapat nilai f-measure sebesar 0.86517. Sedangkan kombinasi metode yang dapat memberikan hasil koreksi terbaik adalah bigram kombinasi yang menggunakan koefisien Dice, Damerau-Levenshtein, dan frekuensi term pada nilai threshold Dice sebesar 0.2. Nilai f-measure dari metode tersebut adalah 0.50112.

Item Type: Thesis (Bachelor)
Uncontrolled Keywords: Damerau-Levenshtein, Dice coefficient, isolated-word error correction, nonword error detection, word frequency
Subjects: P Language and Literature > PI Oriental languages and literatures
Q Science > QA Mathematics > QA75 Electronic computers. Computer science
T Technology > T Technology (General)
Divisions: Fakultas Teknologi Informasi > Prodi Informatika
Depositing User: ms Dominggas Yembise - Keluar
Date Deposited: 24 Jun 2020 03:11
Last Modified: 24 Jun 2020 03:11
URI: http://katalog.ukdw.ac.id/id/eprint/2211

Actions (login required)

View Item View Item