![]() 24
di mana
t
merupakan jumlah dari frequent terms dan p
merupakan jumlah dari
frequent
phrases. P dibentuk dari frequent phrase
dan seluruh kata yang terdapat pada dokumen,
di mana telah dilakukan pembobotan dan normalisasi terhadap
P
.
Di satu sisi, kita
ingin
mendapatkan
informasi
yang sifatnya
umum dari sejumlah
dokumen, di sisi lain kita ingin membaginya ke dalam deskripsi label yang paling cocok.
Baris pada matriks
M
merepresentasikan kelompok, sedangkan kolom pada matriks
M
merepresentasikan
deskripsi
dari
kelompok.
Untuk
setiap
baris,
dipilih
sebuah
kolom
yang nilainya paling maksimum, dengan demikian 2 buah kelompok yang didapat:
Singular
Value (skor:
0.92)
dan
Information
Retrieval
(skor:
0.97).
Berikut
algoritma
Frequent
Phrase
Extraction:
Hitung kosinus antara
setiap pasang
kandidat
label;
Identifikasi
label
yang memenuhi
batas
ambang kesamaan
label ke
dalam
kelompok-kelompok;
Untuk setiap
kelompok yang dibentuk dari
label
yang serupa
{
Pilih satu
label dengan skor tertinggi;
}
d)
Metode
Cluster
Content
Discovery
Dalam fase
ini,
kita
menggunakan
model
ruang
vektor
klasik
untuk
menandai
setiap dokumen yang diinput kedalam labellabel kelompok yang telah terbentuk dari
fase
Cluster Label
Induction.
Rumus
perhitungan
yang
dipakai
dalam
fase
ini
yaitu
C
Q
T
A , di
mana
Q
adalah
matriks
yang terdiri atas kelompokkelompok
label, A
adalah
term document matrix
asli
dari
dokumendokumen
yang
tersedia.
Dengan
|