Home Start Back Next End
  
15
1.
Tokenisasi
Tokenisasi merupakan proses pemotongan kumpulan karakter
menjadi sebuah
kata tunggal atau token.
Contoh tokenisasi :
Input
: Friends, Romans, Countrymen, Lend, Me, Your, Eyes
Output : Friends Romans Countrymen Lend Me Your Eyes
Terkadang token
dapat dikatakan juga sebagai term
atau kata. Pemotongan
kumpulan karakter biasanya berdasarkan karakter spasi, namun beberapa
permasalahan yang terjadi dalam proses tokenisasi
yaitu terdapat beberapa kata
yang akan berbeda arti bila dipotong berdasarkan spasi seperti San Fransisco akan
memiliki arti yang berbeda bila dipotong menjadi San dan Fransisco.
Setiap dokumen dan query direpresentasikan dengan model bag-of-words, yaitu
model yang mengabaikan urutan dari kata –
kata dan struktur yang ada di dalam
dokumen. Dokumen diubah menjadi sebuah ‘tas’ yang berisi kata –
kata yang
independen.
2.
Penghilangan Stop Word
Stop-word
didefinisikan sebagai term
yang tidak berhubungan (non-relevant)
dengan subjek utama dari database
meskipun kata tersebut sering muncul di dalam
dokumen. 
Penghilangan stop-word tidak bersifat wajib pada beberapa desain dari modern
information retrieval
memliki cara sendiri untuk menyelesaikan masalah kata-kata
yang sering digunakan dengan menggunakan data statistik.
Word to PDF Converter | Word to HTML Converter