|
28
Dalam skripsi
ini
digunakan
algoritma
Lingo,
di
mana
dihasilkan
pengurutan
dokumen
hasil
pencarian
sesuai
dengan
urutan kekerabatan
antara
frase
yang
diinput
dengan
dokumen,
mulai
dari
kekerabatan
tertinggi
hingga
terendah.
Hal
ini
tentu saja
sangat menguntungkan bagi user, di mana user
mendapatkan hasil pencarian yang
paling relevan berada pada posisi teratas.
Proses yang dilakukan
Lingo sehingga algoritma ini dapat mengetahui
kekerabatan antara dokumen dengan frase
yaitu dengan menyatukan seluruh dokumen
yang dimiliki
menjadi sebuah
matriks
yang disebut dengan
term document
matrix
yang
terdiri atas kolom mendeskripsikan dokumen, dan baris mendeskripsikan kata
Proses awal pengolahan dokumen, dilakukan Preprocessing,
di mana dalam
tahap ini dilakukan pemrosesan terhadap sejumlah kata yang telah dikumpulkan dari
seluruh dokumen. Pemrosesan terhadap sejumlah
kata
mencakup
pemotongan
kata
menjadi
kata
dasarnya
(Stemming)
dan
pembuangan
kata
yang
umum
dipakai
seperti
and, or (Stop Words Removal).
Tahap
selanjutnya
dalam pemrosesan
awal
dokumen,
dilakukan
tahap Frequent
Phrase
Extraction
yang
akan
menyaring
sejumlah
kata
yang
merupakan
penggabungan
kata pada seluruh dokumen, di mana ditetapkan minimal kata yang akan menjadi
kandidat pembentukan term document matrix harus muncul sejumlah
n
kali
Sejumlah kata terpilih yang telah melalui berbagai proses penyaringan yang
mewakili
seluruh
kata
pada
seluruh
dokumen
kemudian
dipakai
dalam
pembentukan
term
document
matrix
yang
merupakan
matriks
yang
mewakili
seluruh
dokumen.
Jadi
deskripsi dari seluruh dokumen disajikan dalam bentuk matriks.
Setelah
melakukan
pembentukan
term
document matrix,
dilakukan
proses
pengolahan
query
yang
sama
dengan
proses
terbentuknya
term
document matrix,
|