12
Pada
model
vektor,
dokumen
dan
kueri
dir ep resentasikan
sebagai
vektor
dalam
sebuah
ruang
t-dimensi.
Oleh
kar ena
itu,
dikatakan
bahwa
model
ini
ad alah
alg ebraic.
Pada
model
p
robabilitas,
keran gk a
ker ja
untuk
membuat
model
dokumen
dan
ku eri
direp resentasikan
berdasarkan
teori
p
robabilitas.
Oleh
karena
itu,
model
ini
dinamakan
probabilistic.
Dalam sebu ah
sistem r etrival
informasi
y
ang konv ensional,
dokumen
y
ang ada
di
dalam koleksi tetap
statis sementara kueri b aru y ang dimasukkan ke d alam sistem. M odel
op erasional
ini
disebut
sebagai
ad hoc
retrieval
dan
ser in g
digun akan
p
ada
beber ap a
tahun
belakan gan
in i. Sebu ah tugas
y
ang mirip
namun berbeda ad alah dimana ku eri
ny a
tetap
statis
dan
dokumen
baru
y
ang
masuk
ke
dalam
sistem
(dan p ergi).
M
odel
op erasional memiliki istilah y aitu p enap isan. Seb agai contoh, p enap isan dap at
digun akan
dalam p emilihan sebu ah artikel b erita di antara r ibuan artikel y ang diterbitkan setiap
hari.
2.1.1
Kategorisasi Dokumen Teks
M
enurut
Ramadan
(2006,
p
p
1-2), p engkategorisasian
doku men
teks
adalah
suatu
hal
y
ang p enting d an
kebutuhan
terhadap ny a
akan
semak in
men in gkat
seirin g d en gan
berjalanny a
waktu,
karena
dokumen
semakin
lama
akan
semakin
bany ak
dan
ukuran
harddisk
akan
semak in besar.
Sehin gga
p
erlu dilakukan
p
engkajian
metode untuk
kategorisasi
dokumen
teks
dan
uji
coba
terhadap
hal
tersebut
melalui
melakukan
eksp erimen
terhadap
beberap a
metode-metode
kategorisasi,
y
aitu
metode
den gan
men ggunakan p ohon, naïve Bayes, K-Nearest N eighbor dan Neural N etwork.
Ada
dua
var ian
utama
dalam
p
en gkategorisasian
dokumen
teks:
klasterisasi
dokumen
teks dan
p
engkategorisasian
dokumen
teks.
Klasterisasi
dokumen
teks
|