![]() 14
(m>1) OUS
->
homologous
->
homolog
(m>1) IVE
->
effective
->
effect
(m>1) IZE
->
bowdlerize
->
bowdler
Dalam langkah di atas dilakukan pembuangan akhiran.
Langkah 5a
(m>1) E
->
probat
-
Probat
Rate
->
rate
(m=1 and
not *o) E
->
Cease
->
ceas
Langkah 5b
(m >
1 and *d and *L)
->
single letter
controll
->
control
roll
->
roll
b)
Metode
Frequent
Phrase
Extraction
Secara
intuisi,
ketika
menulis tentang suatu
topik,
seorang
penulis
terbiasa
melakukan
pengulangan subjek
yang
memiliki
keterkaitan
dengan
kata
kunci
untuk
mendapatkan perhatian
pembaca.
Frequent
Phrase
Extraction
merupakan
proses
penemuan sejumlah kata
yang
disebutkan
berulangulang dalam suatu
dokumen. Untuk
menjadi
suatu
kandidat
label,
sebuah
frequent phrase
harus
muncul
minimal
sejumlah
ambang
batas
(threshold)
dari
term
frequency. Berikut
algoritma
Frequent
Phrase
Extraction:
Lakukan penggabungan
seluruh dokumen;
Pc ? daftar seluruh kata yang terdapat
pada
seluruh
dokumen yang diinput;
P
f
?
p :
{
p
Pc
frekuensi ( p ) >
batas
ambang
term frequency };
Dalam
melakukan
Frequent
Phrase
Extraction,
yang
perlu
dilakukan
adalah
membangun suatu term document matrix yang mewakili atas seluruh dokumen yang ada,
|