Home Start Back Next End
  
16
2.2.1.1
Tokenisasi
Tokenisasi adalah sebuah p roses untuk memilah isi doku men teks sehin gga
menjadi
satuan
kata-kata.
M
enurut  Weiss  et
al.  (2005),
p
roses  ini
cukup  rumit 
untuk
sebuah
p
rogram komp uter karena beber ap a karakter dap at dijadikan seb agai p embatas (delimiter)
dari token-token
itu
sendiri. Pembatas dari token tersebut
antara
lain sp asi, tab, dan baris
baru,
sedangk an karakter
(
)
<
>
!
?
.
,
terkadang
dian ggap
sebagai p embatas dan
ju ga
bukan p embatas tergantung p ada kondisi p emakaianny a.
Pemilah an
in i biasany a dilakukan
den gan
car a
memisahk an kalimat
menjad i kata-
kata
dan
mengh ilan gk an
kata-kata
y
ang
bukan
merup akan
alfabet  dan
angk a.
Semua
huruf kap ital diubah
men jadi
huruf k ecil agar token d ap at
diurutkan secara
alf abet
dan
dip erlakukan sama d en gan token-token lain.
2.2.1.1.1
Penapisan (Filtering)
Tahap  p enap isan  adalah  tahap 
men gamb il  k ata-kata  p enting
dari 
hasil 
token.
Biasanya dilakuk an den gan
car a
men gh ilan gk an
stopwords
dan
stoplist
dar i token y ang
telah dip eroleh dari p roses tokenisasi.
M
enurut
Talla
(2002,
p
21),
stopword
adalah
d
aftar
kata-kata
y
ang tidak
dip akai
didalam  p emrosesan  bahasa  alami. 
Hasil  p enelitian  sebelu mny a 
meny atakan  bahwa
p
enggun aan stopword men in gkatkan kemamp uan p emrosesan bahasa alami.
M
enurut   Soumen 
(2003,p 48),   kebany akan 
bahasa 
resmi 
di 
berbagai 
negara
memiliki k ata
fun gsi dan kata sambun g sep erti artikel dan p rep osisi y ang hamp ir selalu
muncul
p
ada
dokumen
teks.
Biasany a
kata-kata
ini
tidak
memiliki
arti
y
an g
lebih
di
Word to PDF Converter | Word to HTML Converter