Home Start Back Next End
  
15
kemudian
lakukan
pembobotan,
dan
terakhir
lakukan
pemilihan
kata
yang
termasuk
dalam kandidat label di mana memiliki bobot di atas batas ambang term frequency.
Langkah pertama dalam Frequent
Phrase
Extraction
adalah dengan
membangun
suatu
term
document matrix
yang
terdiri
atas
kumpulan
vektor
dokumen.
Vektor
dokumen
adalah
vektor
yang
merepresentasikan  
sebuah
dokumen.
Term document
matrix
merupakan matriks di mana setiap kolomnya merupakan sebuah
vektor dokumen,
jadi
matriks
ini
mengandung
informasi
dari
sekumpulan
dokumen.
Term document
matrix 
terdiri  atas  baris 
yang 
mewakili  sejumlah  kata  dan  kolom 
yang 
mewakili
sejumlah dokumen.
Langkah kedua
dalam
Frequent
Phrase
Extraction
adalah
dengan melakukan
pembobotan setiap kolom dari term document matrix. Perhitungan bobot bertujuan untuk
melakukan
penyaringan kata
yang
sering
muncul.
Pembobotan
dapat
mengevaluasi
seberapa
penting
suatu
kata
bagi
sebuah
dokumen   Pembobotan
seringkali
digunakan
oleh
mesin
pencari
(search
engine)
untuk
menemukan dokumen
yang
paling
relevan
dengan kata kunci yang dicari.
TFIDF
(Term Frequency
Inverse
Document
Frequency)
merupakan
teknik
pembobotan
yang
sering
digunakan
dalam
pengumpulan informasi.
Perhitungan
bobot
bertujuan
untuk
melakukan
penyaringan kata
yang
sering
muncul.
TFIDF
dapat
digunakan  untuk  mengevaluasi
seberapa  penting 
suatu  kata  bagi 
sebuah  dokumen.
TFIDF
seringkali
digunakan
dalam
search
engine
untuk
menemukan dokumen
yang
paling relevan dengan query.
Term frequency menggambarkan ukuran seberapa penting suatu kata dalam suatu
dokumen.
Word to PDF Converter | Word to HTML Converter