![]() 30
Dimana:
= jumlah kemunculan term i pada dokumen j
Inverse Dokumen Frequency (IDF) digunakan untuk mengidentifikasi seberapa
besar perbedaan yang dihasilkan oleh term i. Biasanya term
yang muncul dalam
berbagai dokumen kurang dapat digunakan untuk mengukur suatu topik yang
spesifik. Rumus untuk mengukur inverse document frequency adalah:
Dimana
= jumlah dokumen yang mengandung term i
digunakan untuk menekan efek relatif terhadap
Vector space model
dapat diterapkan pada indeks
kata tertentu atau pada
keseluruhan teks.
Vector space model
terdiri dari dua kali langkah perhitungan,
yaitu:
1.
Bobot tiap indeks kata pada seluruh dokumen dihitung. Perhitungan ini
menentukan seberapa penting sebuah kata di dalam collection.
2.
Bobot tiap index
kata di dalam dokumen yang diberikan dihitung sesuai
sebanyak N dokumen. Perhitungan ini menentukan seberapa penting sebuah
kata di dalam sebuah dokumen.
Berikut adalah contoh sederhana perhitungan vector space model, untuk
penyederhanaan, kita akan menggunakan vector space model sederhana yang:
|