71130080, Hendrawan (2017) ANALISIS SENTIMEN PADA DATASET SENTIPOL MENGGUNAKAN METODE NEIGHBOR WEIGHTED K-NEAREST NEIGHBOR (NWKNN). Final Year Projects (S1) thesis, Universitas Kristen Duta Wacana.
Text (Skripsi Informatika)
71130080_bab1_bab5_daftarpustaka.pdf Download (2MB) |
|
Text (Skripsi Informatika)
71130080_bab2-sd-bab4_lampiran.pdf Restricted to Registered users only Download (5MB) | Request a copy |
Abstract
Pada umumnya pengklasifikasian teks mengasumsikan bahwa data latih yang digunakan terdistribusikan secara sama rata pada setiap kategorinya. Padahal kenyataannya sering sekali kumpulan data yang digunakan untuk latih tidak seimbang sehingga memunculkan data yang masuk ke dalam kategori mayoritas dan minoritas. Seperti pada pengujian ini menggunakan dataset sentipol pemilihan presiden Indonesia pada tahun 2014 memiliki dataset yang tidak seimbang. Dengan tidak seimbangnya data latih ini menyebabkan klasifikasi pada KNN menjadi tidak akurat dan hasil analisisnya selalu cenderung ke kategori yang mayoritas. Dengan keadaan inilah NWKNN muncul untuk mengurangi kesalahan dalam data yang tidak seimbang. Pada penelitian ini akan dilakukan proses preprocessing pada biasanya seperti case folding, cleansing, tokenizing, sinonim kamus, stop word removal dan stemming. Lalu akan dilakukan pembobotan menggunakan TF-IDF dan cosine similarity untuk mencari kemiripan dokumen. Kemudian akan dilakukan klasifikasi menggunakan NWKNN. Dari hasil tersebut akan dibandingkan hasil dari KNN biasa dengan NWKNN. Penelitian ini membuktikan bahwa NWKNN memang cocok digunakan dalam pembelajaran data latih yang tidak seimbang. Penelitian ini menghasilkan kenaikan akurasi sebesar 6.25% dari KNN biasa dengan nilai akurasi dari 58.75% menjadi 65%. Penelitian lainnya dengan menambahkan kamus sinonim pada proses analisis NWKNN sehingga dapat meningkatkan akurasi sebesar 6.25% dengan nilai akurasi dari 50% menjadi 56.25%. Dalam penelitian ini juga penggunaan kamus sinonim yang dibuat penulis dapat meningkatkan akurasi dari KNN tanpa kamus dengan NWKNN menggunakan kamus sebesar 7.5% dari 66.25% menjadi 73.75%.
Item Type: | Student paper (Final Year Projects (S1)) |
---|---|
Uncontrolled Keywords: | [KNN, neighbor weighted K-nearest neighbor (NWKNN), text mining, sentiment analysis] |
Subjects: | Q Ilmu Pengetahuan > Matematika > Komputer Elektronik. Ilmu Komputer Q Ilmu Pengetahuan > Matematika > Perangkat Lunak (Software) Komputer |
Divisions: | Fakultas Teknologi Informasi > Prodi Informatika |
Depositing User: | Ms Lea Destiany |
Date Deposited: | 06 Aug 2021 03:10 |
Last Modified: | 06 Aug 2021 03:10 |
URI: | http://katalog.ukdw.ac.id/id/eprint/4605 |
Actions (login required)
View Item |