53
S
=
matriks nilai sin gular b erdimensi M xN dengan nilai terurut menurun
V
=
matriks vektor singular kanan b erdimensi NxN
2.3.8
Model Ruang Vektor
M
enurut
M
arjuki
(2008, p 129), di
dalam M odel
Ruang
Vektor,
dokumen-
dokumen
direp resentasikan
sebagai
vektor-vektor.
Kesuksesan
maup un kegagalan
dar i
metode M odel Ruang Vektor tergantung
kep ada p embobotan term. Term
mencakup
kata-
kata, frase-frase, atau
unit
indeks
lainny a
y
ang
digunak an
untuk
men gidentifik asi konten
dari sebuah teks. Karen a term y ang b erbeda memiliki tin gkat
kep entingan y an g berb eda d i
dalam teks,
indikator p enting
(p embobotan term) dikaitkan dengan
setiap
term. Performa
retrival dari sistem retrival informasi san gat
tergantun g kep ada tingk at kesamaan.
M
odel Ruang
Vektor terdiri dari tiga tahap
p
engerjaan,
y
aitu p engindeksan
dokumen, p embobotan term, dan memb erikan p erin gkat sesuai den gan tingk at kesamaan.
2.3.8.1 Pengindeksan dokumen
Beberap a
kata
dalam
sebuah
dokumen
tidak
men ggambarkan
isi
dari
doku men
tersebut. Sep erti kata the dan is. Kata-kata
tersebut dikenal den gan
nama kata-kata
buangan. Den gan
men ggun akan au tomatic document indexing, k ata-kata buan gan
tersebut
dihilan gk an dari doku men. Pembu atan indeks tersebut dap at berdasarkan :
o
Frekuensi kemuncu lan istilah d alam sebuah dokumen.
o
M
etode Non Linguistik : Probabilistic Indexing.
|