2010100263ifbab2 - page 8 of 47

Page 8 of 47

Home Start Back Next End

2.2.1.1

Tokenisasi

Tokenisasi adalah sebuah p roses untuk memilah isi doku men teks sehin gga

menjadi

satuan

kata-kata.

enurut Weiss et

al. (2005),

roses ini

cukup rumit

untuk

sebuah

rogram komp uter karena beber ap a karakter dap at dijadikan seb agai p embatas (delimiter)

dari token-token

itu

sendiri. Pembatas dari token tersebut

antara

lain sp asi, tab, dan baris

baru,

sedangk an karakter

(

)

”

terkadang

dian ggap

sebagai p embatas dan

ju ga

bukan p embatas tergantung p ada kondisi p emakaianny a.

Pemilah an

in i biasany a dilakukan

den gan

car a

memisahk an kalimat

menjad i kata-

kata

dan

mengh ilan gk an

kata-kata

ang

bukan

merup akan

alfabet dan

angk a.

Semua

huruf kap ital diubah

men jadi

huruf k ecil agar token d ap at

diurutkan secara

alf abet

dan

dip erlakukan sama d en gan token-token lain.

2.2.1.1.1

Penapisan (Filtering)

Tahap p enap isan adalah tahap

men gamb il k ata-kata p enting

dari

hasil

token.

Biasanya dilakuk an den gan

car a

men gh ilan gk an

stopwords

dan

stoplist

dar i token y ang

telah dip eroleh dari p roses tokenisasi.

enurut

Talla

(2002,

21),

stopword

adalah

aftar

kata-kata

ang tidak

dip akai

didalam p emrosesan bahasa alami.

Hasil p enelitian sebelu mny a

meny atakan bahwa

enggun aan stopword men in gkatkan kemamp uan p emrosesan bahasa alami.

enurut Soumen

(2003,p 48), kebany akan

bahasa

resmi

berbagai

negara

memiliki k ata

fun gsi dan kata sambun g sep erti artikel dan p rep osisi y ang hamp ir selalu

muncul

ada

dokumen

teks.

Biasany a

kata-kata

ini

tidak

memiliki

arti

an g

lebih