Home Start Back Next End
  
54
2.3.8.2 Pembobotan Term ( Term Weighting)
Pembobotan
term
dalam
M
odel
Ruan g
Vektor
secara
keseluruh an
berd asarkan
statistik 
term   tunggal.
Ada 
tiga 
faktor 
utama 
dalam 
p
embobotan 
istilah 
den gan
men ggunakan ru an g vektor :
1.
Faktor frekuensi term
2.
Faktor frekuensi koleksi
3.
Faktor normalisasi p anjan g (Length normalization factor)
Ketiga
f
aktor
tersebut
diatas
dikalik an
untuk
men gh asilkan
bobot
term.
Skema
p
embobotan
y
ang
p
alin g  umum 
untuk  term
dalam  sebu ah  dokumen 
adalah 
den gan
men ggunakan fr ekuensi kemunculan.
Pembobotan  dasar  dilakukan 
den gan 
men gh itung
frekuensi  kemun culan  term
dalam dokumen karena
dip ercay a bahwa
frekuensi kemunculan term
merup akan p etunjuk
sejauh 
man a  term
tersebut 
mewakili  isi  doku men.  M enurut 
Luhn 
(1958),  kekuatan
p
embeda terkait
dengan
fr ekuensi term
(term-frequency,
tf), di
mana term
y
ang
memilik i
kekuatan
diskriminasi  adalah  term den gan
freku ensi
sedan g.  Pembobotan
b
aku
y
an g
digun akan ad alah term-frequency inversdocument freqeu ency (TF-IDF) sebagai berikut :
??
 
?
?
?
log
?
?
?
;
1,2,…, ? ;
1, 2,…
,
 
…..(2.32)
?
dengan t = total term dalam indeks, n = total dokumen dalam koleksi, df i = total dokumen
y
ang men gandun g term ke-i.
Word to PDF Converter | Word to HTML Converter