2006201335MTIFBab2 - page 19 of 25

Page 19 of 25

Home Start Back Next End

di mana

merupakan jumlah dari frequent terms dan p

merupakan jumlah dari

frequent

phrases. P dibentuk dari frequent phrase

dan seluruh kata yang terdapat pada dokumen,

di mana telah dilakukan pembobotan dan normalisasi terhadap

Di satu sisi, kita

ingin

mendapatkan

informasi

yang sifatnya

umum dari sejumlah

dokumen, di sisi lain kita ingin membaginya ke dalam deskripsi label yang paling cocok.

Baris pada matriks

merepresentasikan kelompok, sedangkan kolom pada matriks

merepresentasikan

deskripsi

dari

kelompok.

Untuk

setiap

baris,

dipilih

sebuah

kolom

yang nilainya paling maksimum, dengan demikian 2 buah kelompok yang didapat:

Singular

Value (skor:

0.92)

dan

Information

Retrieval

(skor:

0.97).

Berikut

algoritma

Frequent

Phrase

Extraction:

Hitung kosinus antara

setiap pasang

kandidat

label;

Identifikasi

label

yang memenuhi

batas

ambang kesamaan

label ke

dalam

kelompok-kelompok;

Untuk setiap

kelompok yang dibentuk dari

label

yang serupa

{

Pilih satu

label dengan skor tertinggi;

}

Metode

Cluster

Content

Discovery

Dalam fase

ini,

kita

menggunakan

model

ruang

vektor

klasik

untuk

menandai

setiap dokumen yang diinput kedalam label–label kelompok yang telah terbentuk dari

fase

Cluster Label

Induction.

Rumus

perhitungan

yang

dipakai

dalam

fase

ini

yaitu

A , di

mana

adalah

matriks

yang terdiri atas kelompok–kelompok

label, A

adalah

term document matrix

asli

dari

dokumen–dokumen

yang

tersedia.

Dengan