eprintid: 2211 rev_number: 10 eprint_status: archive userid: 34 dir: disk0/00/00/22/11 datestamp: 2020-06-24 03:11:32 lastmod: 2020-06-24 03:11:32 status_changed: 2020-06-24 03:11:32 type: thesis metadata_visibility: show contact_email: repository@staff.ukdw.ac.id creators_name: 71110057, AMADEA KRISTINA BUDIMAN creators_id: amadeakristina@gmail.com contributors_type: http://www.loc.gov/loc.terms/relators/THS contributors_type: http://www.loc.gov/loc.terms/relators/THS contributors_name: Virginia, Gloria contributors_name: Susanto, Budi corp_creators: Universitas Kristen Duta Wacana title: ISOLATED-WORD ERROR CORRECTION PADA TEKS BERBAHASA INDONESIA ispublished: pub subjects: PI subjects: QA75 subjects: T1 divisions: tek_informatika full_text_status: restricted keywords: Damerau-Levenshtein, Dice coefficient, isolated-word error correction, nonword error detection, word frequency abstract: Data mentah yang terdapat dalam dokumen teks biasanya tidak terstruktur bentuknya sehingga tidak bisa digunakan untuk mendapatkan informasi secara baik. Oleh karena itu, diterapkan text preprocessing untuk mengolah suatu data mentah yang berupa teks. Salah satu penerapan text preprocessing adalah spelling correction. Dalam spelling correction terdapat teknik yang mengoreksi term tanpa memperhatikan konteks dari teks. Teknik tersebut bernama isolated-word error correction. Sebelum melakukan koreksi, diperlukan tahap nonword error detection yang berfungsi untuk memeriksa ejaan pada suatu term. Dalam penelitian ini penulis meneliti penerapan nonword error detection dan penggunaan Dice coefficient untuk melakukan isolated-word error correction serta Damerau-Levenshtein distance dan word frequency. Penulis juga meneliti pengaruh teknik tokenisasi pada k-gram menggunakan kombinasi susunan karakter. Evaluasi dilakukan menggunakan nilai precision, recall, dan f-measure pada 100 dokumen teks yang diambil dari ICL-corpus. Evaluasi dilakukan terhadap proses deteksi kesalahan dan koreksi kesalahan. Pada evaluasi koreksi kesalahan, setiap kombinasi metode yang menggunakan koefisien Dice akan dievaluasi berdasarkan variasi nilai threshold Dice, yaitu sebesar 0.2, 0.4, 0.6, dan 0.8. Pada evaluasi deteksi kesalahan, didapat nilai f-measure sebesar 0.86517. Sedangkan kombinasi metode yang dapat memberikan hasil koreksi terbaik adalah bigram kombinasi yang menggunakan koefisien Dice, Damerau-Levenshtein, dan frekuensi term pada nilai threshold Dice sebesar 0.2. Nilai f-measure dari metode tersebut adalah 0.50112. date: 2016-02 date_type: published pages: 94 institution: Universitas Kristen Duta Wacana department: Informatika thesis_type: skripsi thesis_name: other citation: 71110057, AMADEA KRISTINA BUDIMAN (2016) ISOLATED-WORD ERROR CORRECTION PADA TEKS BERBAHASA INDONESIA. Bachelor thesis, Universitas Kristen Duta Wacana. document_url: https://katalog.ukdw.ac.id/2211/1/71110057_bab1_bab5_daftarpustaka.pdf document_url: https://katalog.ukdw.ac.id/2211/2/71110057_bab2-sd-bab5_daftarpustaka.pdf