eprintid: 6851
rev_number: 13
eprint_status: archive
userid: 504
dir: disk0/00/00/68/51
datestamp: 2022-05-10 05:18:04
lastmod: 2023-01-19 02:04:03
status_changed: 2023-01-19 02:04:03
type: thesis
metadata_visibility: show
contact_email: repository@staff.ukdw.ac.id
creators_name: 71170247, Mayesti Anggelina
creators_id: mayesti.angelina@gmail.com
contributors_type: http://www.loc.gov/loc.terms/relators/THS
contributors_type: http://www.loc.gov/loc.terms/relators/THS
contributors_name: Kusumosih, Lucia Dwi
contributors_name: Sebastian, Danny
contributors_id: 0516116901
contributors_id: 0526118803
corp_creators: Universitas Kristen Duta Wacana
title: PENERAPAN ALGORITMA SIMHASH UNTUK MENDETEKSI KEMIRIPAN TEKS BERITA
ispublished: pub
subjects: QA75
subjects: QA76
subjects: T1
divisions: tek_informatika
full_text_status: restricted
keywords: Deteksi kemiripan teks, Algoritma simhash, Hamming distance
abstract: Penerapan algoritma simhash untuk mendeteksi kemiripan teks pada berita  Text reuse bersifat illegal adalah plagiasi, dalam dunia pendidikan plagiasi ini tergolong dalam tindakan yang melanggar peraturan akademik dan Undang-Undang hak cipta yaitu Undang-undang Nomor 28 tahun 2014. Pada beberapa lembaga/organisasi tingkatan text reuse bervariasi tergantung toleransi yang telah disepakati. Misalnya di Universitas Kristen Duta Wacana tingkat text reuse yang diperbolehkan sekitar 30% diatas itu akan tergolong plagiasi, dan di lembaga/organisasi lain dapat berbeda. Namun, tidak semua text reuse dengan tingkat 100% merupakan plagiasi contohnya pada berita. Sebuah text reuse dapat dideteksi berdasarkan kemiripan teks tersebut dengan teks yang lain. Maka dari itu penelitian ini akan mengidentifikasi kemiripan teks dengan dengan menerapkan Algoritma Simhash. Algoritma Simhash digunakan untuk mendapatkan fingerprint untuk ekstraksi fitur dalam mendeteksi penggunaan teks kembali (text reuse) melalui kemiripan teks antar dokumen. Kemiripan teks dihitung dengan metode hamming distance. Berdasarkan hasil pengujian yang dilakukan penulis, mendeteksi teks duplicate lebih baik dibandingkan mendeteksi teks Near-duplicate karena pada pengujian teks duplikat rata-rata nilai evaluasi recall mencapai 80%. 8 dari 10 dokumen uji sistem bisa menemukan kalimat duplikatnya dengan sempurna. Namun deteksi teks duplikat juga memiliki kekurangan. Terlihat dari nilai rata-rata precision yaitu 27%.
date: 2022-03-12
date_type: published
pages: 61
institution: Universitas Kristen Duta Wacana
department: Informatika
thesis_type: skripsi
thesis_name: other
citation:   71170247, Mayesti Anggelina  (2022) PENERAPAN ALGORITMA SIMHASH UNTUK MENDETEKSI KEMIRIPAN TEKS BERITA.  Final Year Projects (S1) thesis, Universitas Kristen Duta Wacana.   
document_url: https://katalog.ukdw.ac.id/6851/1/71170247_bab1_bab5_daftar%20pustaka.pdf
document_url: https://katalog.ukdw.ac.id/6851/2/71170247_bab2%20s.d%20bab4_lampiran.pdf