![]() 40
collection
telah selesai dibuat. Karena itu, waktu yang diperlukan pada proses ini
tidak begitu mempengaruhi efisiensi sistem.
Langkah langkah preprocessing adalah :
1.
LSI pertama tama mengindeksan semua term yang ada di dalam corpus atau di
setiap dokumen yang ada pada document collection. Kemudian stop- word
yang
terdapat pada dokumen
tersebut dihilangkan. Hasilnya adalah table
yang berisi
seberapa seringnya sebuah term muncul di setiap dokumen.
2.
Menghitung seberapa pentingnya sebuah term
di dalam dokumen dan di
keseluruhan document collection
dengan melakukan pembobotan lokal dan
global.
3.
Nilai dari setiap indeks dimasukkan ke dalam Term Document Matrix
(TDM)
dimana setiap baris merepresentasikan term
dan setiap kolom
merepresentasikan dokumen.
adalah jumlah term
i yang terdapat pada
dokumen j. Biasanya TDM menghasilkan matrix
sparse
m * n, hal ini karena
secara umum tidak setiap kata muncul di setiap dokumen . Matrix sparse adalah
matrix yang nilai selnya sebagian besar nol.
4.
SVD adalah metode matematika yang digunkana untuk melakukan faktorisasi
dari sebuah matrix menjadi 3 matrix, yaitu matrix U, matrix S dan matrix V.
2.
Proses Pencarian
Berikut adalah proses yang akan dijalankan setiap kali terjadi proses pencarian :
1.
Pertama pengguna menentukan tipe pencarian yang akan digunakan. Tipe
tipe
yang ada adalah :
Pencarian term yang mirip dengan term yang dimasukkan
|