Home Start Back Next End
  
24
di mana
t
merupakan jumlah dari frequent terms dan  p
merupakan jumlah dari
frequent
phrases.  P  dibentuk dari frequent phrase
dan seluruh kata yang terdapat pada dokumen,
di mana telah dilakukan pembobotan dan normalisasi terhadap
P
.
Di satu sisi, kita
ingin
mendapatkan
informasi
yang sifatnya
umum dari sejumlah
dokumen, di sisi lain kita ingin membaginya ke dalam deskripsi label yang paling cocok.
Baris pada matriks
merepresentasikan kelompok, sedangkan kolom pada matriks
M
merepresentasikan
deskripsi
dari
kelompok.
Untuk
setiap
baris,
dipilih
sebuah
kolom
yang  nilainya  paling  maksimum,  dengan  demikian  2  buah  kelompok  yang  didapat:
Singular
Value (skor:
0.92)
dan
Information
Retrieval
(skor:
0.97).
Berikut
algoritma
Frequent
Phrase
Extraction:
Hitung kosinus antara
setiap pasang
kandidat
label;
Identifikasi
label 
yang  memenuhi
batas 
ambang  kesamaan 
label  ke
dalam
kelompok-kelompok;
Untuk setiap
kelompok yang dibentuk dari
label
yang serupa
{
Pilih satu
label dengan skor tertinggi;
}
d) 
Metode
Cluster
Content
Discovery
Dalam fase
ini,
kita
menggunakan
model
ruang
vektor
klasik
untuk
menandai
setiap dokumen yang diinput kedalam label–label kelompok yang telah terbentuk dari
fase
Cluster  Label
Induction.
Rumus
perhitungan
yang
dipakai
dalam
fase
ini
yaitu
C
Q
T
A , di
mana
Q
adalah
matriks
yang terdiri atas kelompok–kelompok
label,  A
adalah 
term  document  matrix 
asli 
dari 
dokumen–dokumen 
yang 
tersedia. 
Dengan
Word to PDF Converter | Word to HTML Converter