Home Start Back Next End
  
8
Stop words
merupakan
kata–kata
seperti
kata
sambung,
awalan,
dll,
memiliki
pengaruh
yang
sangat kecil bahkan tidak
sama sekali
terhadap relevansi. Mesin
pencari
pada umumnya mengabaikan stop words yang berada dalam suatu query.
Vektor dokumen merupakan vektor yang merepresentasikan
sebuah dokumen.
Term
document matrix
merupakan
matriks
di
mana
setiap
kolomnya
merupakan
sebuah
vektor
dokumen,
jadi
matriks
ini
mengandung informasi
dari
sekumpulan
dokumen.
Term
document
matrix
terdiri
atas
baris
yang
mewakili
sejumlah
kata
dan
kolom yang mewakili sejumlah dokumen.
Term Frequency
(TF)
merupakan
pengukuran
frekuensi
munculnya
kata
dalam
suatu
dokumen.
TF
dikombinasikan
dengan
Inverse
Document
Frequency
(IDF)
untuk
mencari sejumlah dokumen yang paling relevan dengan query.
Inverse
Document Frequency
(IDF)
merupakan pengukuran frekuensi kemunculan
suatu
kata
dalam
sekumpulan
dokumen.
Perhitungan
dilakukan
dengan
mengkalkulasi
total
dokumen
dalam
koleksi
dibagi
dengan
jumlah
dokumen
yang
mengandung
kata
tertentu.
Dalam
algoritma
Lingo,
yang
pertama
kali
dilakukan
adalah
menciptakan
label
kelompok
yang
mudah
dimengerti oleh
manusia,
kemudian
menandai
keseluruhan
dokumen
yang ada ke dalam
label–label kelompok yang
telah terbentuk. Secara spesifik,
dilakukan
pengekstrakan
frequent
phrase  dari
dokumen
yang
diinput
dengan
harapan
dapat
menjadi
sumber
yang paling
informatif
yang
menggambarkan deskripsi dari suatu
topik.
Kemudian
dilakukan
pengurangan
term
document matrix
menggunakan
SVD
untuk
menemukan
konsep
abstrak
dari
bermacam–macam
topik,
dengan
tujuan
untuk
mendapatkan
hasil
pencarian.
Pada
akhirnya,
dilakukan
pencocokkan deskripsi
grup
dengan 
topik 
yang  diekstrak  dan 
menandai  dokumen 
yang 
relevan 
masuk 
dalam
Word to PDF Converter | Word to HTML Converter