![]() 54
2.3.8.2 Pembobotan Term ( Term Weighting)
Pembobotan
term
dalam
M
odel
Ruan g
Vektor
secara
keseluruh an
berd asarkan
statistik
term tunggal.
Ada
tiga
faktor
utama
dalam
p
embobotan
istilah
den gan
men ggunakan ru an g vektor :
1.
Faktor frekuensi term
2.
Faktor frekuensi koleksi
3.
Faktor normalisasi p anjan g (Length normalization factor)
Ketiga
f
aktor
tersebut
diatas
dikalik an
untuk
men gh asilkan
bobot
term.
Skema
p
embobotan
y
ang
p
alin g umum
untuk term
dalam sebu ah dokumen
adalah
den gan
men ggunakan fr ekuensi kemunculan.
Pembobotan dasar dilakukan
den gan
men gh itung
frekuensi kemun culan term
dalam dokumen karena
dip ercay a bahwa
frekuensi kemunculan term
merup akan p etunjuk
sejauh
man a term
tersebut
mewakili isi doku men. M enurut
Luhn
(1958), kekuatan
p
embeda terkait
dengan
fr ekuensi term
(term-frequency,
tf), di
mana term
y
ang
memilik i
kekuatan
diskriminasi adalah term den gan
freku ensi
sedan g. Pembobotan
b
aku
y
an g
digun akan ad alah term-frequency inversdocument freqeu ency (TF-IDF) sebagai berikut :
??
?
?
?
log
?
?
?
;
1,2,
, ? ;
1, 2,
,
..(2.32)
?
dengan t = total term dalam indeks, n = total dokumen dalam koleksi, df i = total dokumen
y
ang men gandun g term ke-i.
|