![]() 29
Pada D1, nilai
= 1 dikarenakan D1 hanya mengandung satu kata car.
Nilai dari
adalah nilai untuk informasi lokal, sementara nilai
adalah nilai dari informasi global yang ada.
Nilai
di atas adalah
yang merupakan jumlah term
secara keseluruhan dari semua dokumen.
Persamaan vector space model
untuk menghitung bobot term
yang
diperkenalkan oleh salton
menunjukkan bahwa nilai
akan bertambah seiring
dengan bertambahnya nilai
. Hal ini akan menyebabkan model di atas rentan
terhadap pengulangan term
yang akan mengakibatkan nilai
menjadi tinggi (hal
ini dikenal dengan keyword spamming), jika diberikan query q, maka
1.
Dokumen yang dengan jumlah kata yang sama, maka dokumen yang
mengandung term yang terdapat pada query q tentunya akan mendapatkan nilai
yang lebih tinggi
2.
Dokumen yang panjangnya tidak sama, maka kemungkinan dokumen yang lebih
panjang akan mendapatkan nilai
yang lebih tinggi karena dokumen tersebut
mungkin saja lebih banyak mengandung term pada query
.
2.3.2.1 TF IDF
Term
Frequency
(TF) menurut Polettini (2004) adalah formula yang dipakai
untuk menghitung berapa kali suatu term muncul di sebuah dokumen. Frekuensi
term i dalam dokumen j didefinisikan oleh Cios et al (2007) sebagai:
|