2006201335MTIFBab2 - page 10 of 25

Page 10 of 25

Home Start Back Next End

kemudian

lakukan

pembobotan,

dan

terakhir

lakukan

pemilihan

kata

yang

termasuk

dalam kandidat label di mana memiliki bobot di atas batas ambang term frequency.

Langkah pertama dalam Frequent

Phrase

Extraction

adalah dengan

membangun

suatu

term

document matrix

yang

terdiri

atas

kumpulan

vektor

dokumen.

Vektor

dokumen

adalah

vektor

yang

merepresentasikan

sebuah

dokumen.

Term document

matrix

merupakan matriks di mana setiap kolomnya merupakan sebuah

vektor dokumen,

jadi

matriks

ini

mengandung

informasi

dari

sekumpulan

dokumen.

Term document

matrix

terdiri atas baris

yang

mewakili sejumlah kata dan kolom

yang

mewakili

sejumlah dokumen.

Langkah kedua

dalam

Frequent

Phrase

Extraction

adalah

dengan melakukan

pembobotan setiap kolom dari term document matrix. Perhitungan bobot bertujuan untuk

melakukan

penyaringan kata

yang

sering

muncul.

Pembobotan

dapat

mengevaluasi

seberapa

penting

suatu

kata

bagi

sebuah

dokumen Pembobotan

seringkali

digunakan

oleh

mesin

pencari

(search

engine)

untuk

menemukan dokumen

yang

paling

relevan

dengan kata kunci yang dicari.

TFIDF

(Term Frequency

Inverse

Document

Frequency)

merupakan

teknik

pembobotan

yang

sering

digunakan

dalam

pengumpulan informasi.

Perhitungan

bobot

bertujuan

untuk

melakukan

penyaringan kata

yang

sering

muncul.

TFIDF

dapat

digunakan untuk mengevaluasi

seberapa penting

suatu kata bagi

sebuah dokumen.

TFIDF

seringkali

digunakan

dalam

engine

untuk

menemukan dokumen

yang

paling relevan dengan query.

Term frequency menggambarkan ukuran seberapa penting suatu kata dalam suatu

dokumen.