30
variabel yang tidak relevan dengan masalah pengklasteran atau
pengelompokkan akan mendistorsi hasil pengklasteran yang
kemungkinan besar sangat bermanfaat.
Pada dasarnya set variabel yang akan dipilih harus menguraikan
kemiripan (similiarity) antara objek, yang memang benar-benar relevan
dengan permasalahan yang ada. Variabel harus dipilih berdasarkan
penelitian sebelumnya, teori atau suatu pertimbangan berkenaan dengan
hipotesis yang akan diuji.
2.
Memilih ukuran jarak atau similaritas
Oleh karena tujuan
pengklasteran ialah untuk mengelompokkan
objek yang mirip dengna klaster yang sama, maka beberapa ukuran
dipekukan untuk mengakses seberapa mirip atau berbeda objek-objek
tersebut. Pendekatan yang paling umum ialah mengukur kemiripan yang
dinyatakan dalam
jarak (distance) antara pasangan objek. Objek dengan
jarak yang lebih pendek antara mereka akan lebih mirip satu sama lain
dibandingkan dengan pasangan dengan jarak yang lebih panjang. Ada
beberapa cara untuk mengukur jarak antara dua objek.
Ukuran kemiripan yang paling biasa dipakai adalah jarak yuklidian
atau euclidean distance
atau nilai kuadratnya. The euclidean distance
ialah akar dari jumlah kuadrat perbedaan atau deviasi di dalam nilai untuk
setiap variabel. Ada juga ukuran jarak lainnya, yaitu the city-block or
manhattan distance
antara dua objek merupakan jumlah perbedaan
|