2006201335MTIFBab2 - page 23 of 25

Page 23 of 25

Home Start Back Next End

Dalam skripsi

ini

digunakan

algoritma

Lingo,

mana

dihasilkan

pengurutan

dokumen

hasil

pencarian

sesuai

dengan

urutan kekerabatan

antara

frase

yang

diinput

dengan

dokumen,

mulai

dari

kekerabatan

tertinggi

hingga

terendah.

Hal

ini

tentu saja

sangat menguntungkan bagi user, di mana user

mendapatkan hasil pencarian yang

paling relevan berada pada posisi teratas.

Proses yang dilakukan

Lingo sehingga algoritma ini dapat mengetahui

kekerabatan antara dokumen dengan frase

yaitu dengan menyatukan seluruh dokumen

yang dimiliki

menjadi sebuah

matriks

yang disebut dengan

term document

matrix

yang

terdiri atas kolom mendeskripsikan dokumen, dan baris mendeskripsikan kata

Proses awal pengolahan dokumen, dilakukan Preprocessing,

di mana dalam

tahap ini dilakukan pemrosesan terhadap sejumlah kata yang telah dikumpulkan dari

seluruh dokumen. Pemrosesan terhadap sejumlah

kata

mencakup

pemotongan

kata

menjadi

kata

dasarnya

(Stemming)

dan

pembuangan

kata

yang

umum

dipakai

seperti

“and, or” (Stop Words Removal).

Tahap

selanjutnya

dalam pemrosesan

awal

dokumen,

dilakukan

tahap Frequent

Phrase

Extraction

yang

akan

menyaring

sejumlah

kata

yang

merupakan

penggabungan

kata pada seluruh dokumen, di mana ditetapkan minimal kata yang akan menjadi

kandidat pembentukan term document matrix harus muncul sejumlah

kali

Sejumlah kata terpilih yang telah melalui berbagai proses penyaringan yang

mewakili

seluruh

kata

pada

seluruh

dokumen

kemudian

dipakai

dalam

pembentukan

term

document

matrix

yang

merupakan

matriks

yang

mewakili

seluruh

dokumen.

Jadi

deskripsi dari seluruh dokumen disajikan dalam bentuk matriks.

Setelah

melakukan

pembentukan

term

document matrix,

dilakukan

proses

pengolahan

query

yang

sama

dengan

proses

terbentuknya

term

document matrix,