PEMILIHAN KOMBINASI FITUR UNTUK AUTHOR VERIFICATION DENGAN METODE CLUSTERING K-MEANS PADA TEKS BERBAHASA INDONESIA

71160018, Thomas Widiarya Budiman (2021) PEMILIHAN KOMBINASI FITUR UNTUK AUTHOR VERIFICATION DENGAN METODE CLUSTERING K-MEANS PADA TEKS BERBAHASA INDONESIA. Bachelor thesis, Universitas Kristen Duta Wacana.

[img] Text (Skripsi Informatika)
71160018_bab1_bab5_daftarpustaka.pdf

Download (2MB)
[img] Text (Skripsi Informatika)
71160018_bab2-sd-bab4_lampiran.pdf
Restricted to Registered users only

Download (5MB) | Request a copy

Abstract

Penipuan dengan menggunakan identitas orang lain umumnya dilakukan melalui media tertulis, karena pelaku tidak perlu memperlihatkan fisik maupun suaranya. Maka dari itu diperlukan sistem yang bisa membedakan identitas tulisan seseorang. Identitas tulisan seseorang bisa dianalisa menggunakan fitur stylometry, fitur ini merupakan salah satu faktor sistem verifikasi penulis bisa berjalan dengan baik. Penelitan ini mengasumsikan jika kombinasi fitur stylometry berhasil merepresentasikan gaya penulisan seseorang maka proses klasterisasi atau klasifikasi dokumen berdasarkan gaya penulisan seseorang akan menghasilkan nilai evaluasi klasterisasi (purity) dan klasifikasi (akurasi, presisi, sensitivitas, FScore) yang memuasakan. Hasil penelitian dengan dokumen berbahasa Indonesia pada klasifier MKNN, KNN, dan SVM menunujukan bahwa nilai purity bisa menggambarkan nilai evaluasi klasifikasi walaupun tidak terlalu tepat, kombinasi fitur mendapatkan nilai purity kurang dari 0,5 memiliki kemungkinan besar untuk mendapatkan nilai evaluasi klasifikasi kurang dari 0,5 juga, hal ini bisa menghemat proses jika kombinasi fitur dengan nilai purity kurang dari 0,5 tidak digunakan untuk proses klasifikasi. Kombinasi fitur yang mengandung fitur frekuensi relatif tanda baca (Fitur Sintaksis), frekuensi relatif stopword (Fitur Sintaksis) cenderung memiliki nilai evaluasi klasifikasi maupun klasterisasi yang lebih baik dari pada kombinasi fitur yang tidak mengandung kedua fitur tersebut dan ketika ditambah dengan fitur rata-rata panjang paragraf (Fitur Struktural) kombinasi fitur ini menjadi kombinasi fitur terbaik pada semua klasifier.

Item Type: Thesis (Bachelor)
Uncontrolled Keywords: Identitas tulisan seseorang, Verifikasi penulis, Fitur stylometry
Subjects: P Bahasa dan Literatur > PL Bahasa dan Literatur Asia Timur, Afrika, Oseania
Q Ilmu Pengetahuan > QA Matematika > QA76 Perangkat Lunak (Software) Komputer
T Teknologi > T Teknologi (Umum)
Divisions: Fakultas Teknologi Informasi > Prodi Informatika
Depositing User: Dhian Saraswati
Date Deposited: 26 Apr 2021 02:20
Last Modified: 26 Apr 2021 02:20
URI: http://katalog.ukdw.ac.id/id/eprint/5039

Actions (login required)

View Item View Item