![]() 26
Gambar 2.2 Algoritma Porter untuk Bahasa Indonesia
2.2.2
Tahap Pelatihan
Tahap
kedua
dari
text
ca tegorization
adalah
tahap
p
elatihan
(training). Pada
tahap
ini sistem akan
memb an gun model y ang b erfun gsi untuk menentukan kelas dari doku men
y
ang
belum
dik etahui kelasny a. Tahap
ini
menggunak an data
y
ang
telah diketahui
kelasny a
(data training)
y
an g k emudian
ak an
d
ibentuk
model
y
an g
dir ep resantasikan
melalui
vektor dari
tiap
dokumen.
Data training disini
digunak an
sebagai
p
atokan
untuk
menentukan
kata-kata
kunci
dari
tiap
kategori.
M
enurut Sebastiani
(2000,
p
11),
data
training adalah
sekump ulan
dokumen
contoh
y
ang
diobservasi
untuk
didap atkan
karakteristikny a demi memp ermudah classifier untuk menentukan kategor i.
|