16
2.2.1.1
Tokenisasi
Tokenisasi adalah sebuah p roses untuk memilah isi doku men teks sehin gga
menjadi
satuan
kata-kata.
M
enurut Weiss et
al. (2005),
p
roses ini
cukup rumit
untuk
sebuah
p
rogram komp uter karena beber ap a karakter dap at dijadikan seb agai p embatas (delimiter)
dari token-token
itu
sendiri. Pembatas dari token tersebut
antara
lain sp asi, tab, dan baris
baru,
sedangk an karakter
(
)
<
>
!
?
.
,
terkadang
dian ggap
sebagai p embatas dan
ju ga
bukan p embatas tergantung p ada kondisi p emakaianny a.
Pemilah an
in i biasany a dilakukan
den gan
car a
memisahk an kalimat
menjad i kata-
kata
dan
mengh ilan gk an
kata-kata
y
ang
bukan
merup akan
alfabet dan
angk a.
Semua
huruf kap ital diubah
men jadi
huruf k ecil agar token d ap at
diurutkan secara
alf abet
dan
dip erlakukan sama d en gan token-token lain.
2.2.1.1.1
Penapisan (Filtering)
Tahap p enap isan adalah tahap
men gamb il k ata-kata p enting
dari
hasil
token.
Biasanya dilakuk an den gan
car a
men gh ilan gk an
stopwords
dan
stoplist
dar i token y ang
telah dip eroleh dari p roses tokenisasi.
M
enurut
Talla
(2002,
p
21),
stopword
adalah
d
aftar
kata-kata
y
ang tidak
dip akai
didalam p emrosesan bahasa alami.
Hasil p enelitian sebelu mny a
meny atakan bahwa
p
enggun aan stopword men in gkatkan kemamp uan p emrosesan bahasa alami.
M
enurut Soumen
(2003,p 48), kebany akan
bahasa
resmi
di
berbagai
negara
memiliki k ata
fun gsi dan kata sambun g sep erti artikel dan p rep osisi y ang hamp ir selalu
muncul
p
ada
dokumen
teks.
Biasany a
kata-kata
ini
tidak
memiliki
arti
y
an g
lebih
di
|