13
berhubungan
den gan
menemukan
sebuah
struktur
kelomp ok y ang belum
kelihatan
dari
sekump ulan dokumen teks. Sedangkan p engk ategorisasian dokumen
teks
dap at
dianggap
sebagai
task
untuk
membentuk
struktur
dari
p
eny imp anan
dokumen
teks berdasarkan
p
ada struktur kelomp ok y ang sudah diketahui sebelumny a.
Pada kategorisasi dokumen teks, diber ikan seku mp ulan kategori
(lab el) dan ko leksi
dokumen y ang b erfun gsi sebagai data latih, y aitu data y ang digun akan untuk memban gun
model,
dan
kemud ian
dilakukan
p
roses
untuk
menemukan
kategori
y
ang
tep at
untuk
dokumen
test,
y
aitu
dokumen
y
an g
digun akan
untuk
menentukan
akur asi
dar i
mod el.
M
isalkan ada sebuah dokumen x sebagai input,
mak a output y ang dihasilkan oleh
mod el
tersebut
adalah
kelas atau
kategor i
y
dar i
beber ap a
kategori
tertentu y ang telah
didefinisik an
sebelumny a
(y1,
,yk).
Adap un
contoh
dari
p
emanfaatan
kategorisasi
dokumen teks adalah p engkategorisasian berita ke dalam beb erap a kategor i sep erti bisnis,
teknologi,
k
esehatan
dan
lain
sebagainy a;
p
engkategorisasian
email
sebagai
spam
atau
bukan;
p
engkategorisasian
kilasan
film
sebagai
film
favor it,
netral
atau
tidak
favorit;
p
engkategor isasian
paper
y
ang
menarik
d
an
tidak
men arik;
dan
p
en ggunaan d ari
kategorisasi
doku men
teks
y
ang
p
aling
umu m
adalah
kategorisasi
otomatis
dari
web
pages y ang dimanf aatkan oleh p ortal Internet sep erti Yahoo.
M
enurut
Thoster
Joachim
(1999),
tujuan
dari
text
categorization
adalah
p
engklasifik asian dokumen teks
ke dalam jumlah
kategor i
y
ang sudah ditentukan. Setiap
dokumen bisa memiliki bany ak kategori,
tep at
satu kategori, atau tidak memiliki kategori
sama sekali.
Den gan
men ggunak an machin e learning,
tujuanny a adalah
untuk
memp elajari classifiers dari contoh-contoh y ang mewakili tiap kategori secara otomatis.
|