![]() 38
SVD membagi matriks matriks A
dimana
dan
menjadi tiga
matriks
LSI dirancang untuk menemukan struktur lemantik laten dari document
collection dengan membuat sebuah ruang semantik. Karena itu LSI menganalis pola
penggunaan kata yang ada pada document collection. Pada ruang semantik yang
dibuat oleh LSI, terdapat term dan document.
Latent Semantic Indexing
dikembangkan untuk mengatasi kelemahan model
ruang vektor. Misalnya kita mempunyai lima buah document:
: Romeo and Juliet.
: Juliet :O happy dagger!
: Romeo died by dagger.
: live free or die, thats the New-Hampsphires motto.
: Did you know, New-Hampspire is in New-England
Dan query yang dipakai adalah : dies, dagger.
Jika dilakukan pencarian dokumen yang relevan, jelas bahwa
berada pada
peringkat teratas karena dokumen tersebut mengandung kata dies, dan dagger.
Dokumen
dan
berada dibawah dokumen
karena masing
masing
dokumen mengandung
satu query. Lalu bagaimana dengan dokumen
dan
?
Jika yang menganalisis dokumen dokumen di atas adalah seorang manusia, akan
disimpulkan bahwa dokumen
sebenarnya berhubungan dengan query
diatas,
sementara itu dokumen
tidak terlalu berkaitan dengan query
yang dimasukkan.
|