![]() 23
memuaskan, ini diambil untuk menjadi P probabilitas (XUY),
di mana XUY menunjukkan bahwa transaksi berisi baik X dan
Y, yaitu sekumpulan itemset
X dan Y. (Han dan
Kamber,2011,p21)
2.5.3
K-Means
Menurut Aryan (2010) K-Means merupakan algoritma yang
umum digunakan untuk clustering dokumen. Prinsip utama K-Means
adalah menyusun k prototype
atau pusat massa (centroid) dari
sekumpulan data berdimensi n. Sebelum diterapkan proses algoritma
K-means, dokumen akan di preprocessing terlebih dahulu. Kemudian
dokumen direpresentasikan sebagai vektor
yang memiliki term
dengan nilai tertentu. Sedangkan menurut Chen yu (2010), K-Means
merupakan algoritma untuk cluster
n objek berdasarkan atribut
menjadi k partisi, dimana k < n.
Dari teori-teori yang dijabarkan oleh para ahli diatas, bahwa
K-means
merupakan salah satu metode data clustering non hirarki
untuk clustering dokumen yang berusaha mempartisi data yang ada ke
dalam bentuk satu atau lebih cluster/kelompok
berdasarkan atribut
menjadi k partisi, dimana k < n.
Algoritma K-means
Menurut Widyawati, (2010), Algoritma k-means
merupakan algoritma yang membutuhkan parameter input
sebanyak k dan membagi sekumpulan n objek kedalam k cluster
sehingga tingkat kemiripan antar anggota dalam satu cluster tinggi
sedangkan tingkat kemiripan dengan anggota pada cluster
lain
sangat rendah. Kemiripan anggota terhadap cluster diukur dengan
kedekatan objek terhadap nilai mean
pada cluster
atau dapat
disebut sebagai centroid cluster atau pusat massa.
Menurut Kantardzic (2009), teknik data mining
yang
paling umum, antara lain:
Metode statistika klasik yaitu linier, quadratic dan
logistic
discriminate analyses.
|