![]() 18
0
0
0.5600
0.5600
0
0
1.0000
0.4900
0.7100
0
0
0
0.7100
0
A
0.4900
0.7100
0
0
0
0.7100
0
0.7200
0
0
0
1.0000
0
0
0
0
0.8300
0.8300
0
0
0
0.0173 a
2
1
a
7.6124
bobot dalam
D
4
untuk kata Information =
0.0736
a
0.0736
7.6124
=
0.56
bobot dalam
D
4
untuk kata Retrieval =
0.1088
a
0.1088
7.6124
=
0.83
Term Document Matrix:
Dalam
D
4
,
terdapat satu buah kata Information dan satu buah kata Retrieval, hal
ini
yang
membentuk
vektor
dokumen
V
4
.
Setelah
vektor
dokumen
terbentuk,
lakukan
normalisasi
hingga
didapatkan
panjang
masingmasing
vektor
dokumen
yang
merupakan
kolom
pada
term
document
matrix
=
1,
hal
ini
dilakukan
untuk
menjaga
relevansi di mana sebelumnya setiap vektor dokumen memiliki panjang berbeda-beda.
Dengan
memasukkan
vektor dokumen
milik
D1 ke dalam kolom I,
vektor
dokumen
milik D2
ke
dalam kolom II,
vektor
dokumen
milik
D3 ke
dalam kolom III
dan seterusnya, didapatkan sebuah term document matrix.
c)
Metode
Cluster
Label
Induction
Dari
satu
tahap sebelum Cluster
Label
Induction, didapatkan daftar dari
frequent
phrase
yang
memiliki
frekuensi
di
atas
batas
ambang
term
frequency yang
telah
ditentukan.
Seluruh
kata
yang
tercakup
dalam
daftar
frequent
phrase kemudian
akan
|