13
Oleh
karena
itu
secara
resmi
ditetapkan tujuan
spell
checker
untuk
membuat
daftar kata-kata yang kemungkinannya paling benar diberikan input tertentu, atau:
î
=
argmax(p(i|o))
atau menggunakan Bayes:
î
=
argmax(p(o|i)p(i))
Dimana p(i) adalah probabilitas sebelum dan p(o|i) adalah likelihood. artinya p(i)
adalah
probabilitas
dari
urutan
kata,
dimana
p(o|i)
adalah
model
dari
spelling
errors.
Untuk memperjelas, tulis ulang formula menjadi:
c
=
argmax(p(t|c)p(c))
Yang
kira-kira menjadi
"koreksi
terbaik
adalah
kata
yang
benar
yang
terjadi
paling sering dengan kesalahan pengetikan.
2.1.1.1.
Spelling Mistakes
Kesalahan
ejaan
terdapat
dua
kategori:
kesalahan
non-kata
dan
kesalahan
kata
yang
sebenarnya.
Kesalahan
ejaan
non-kata
adalah kesalahan
yang
menghasilkan
kata-
kata
tidak
masuk
akal,
sedangkan
kesalahan
kata
sebenarnya
menghasilkan kata
sah
lainnya.
Kesalahan ejaan
juga
dapat
dibagi
menjadi
dua
kategori:
kesalahan
ketik
dan
kesalahan kognitif. Kesalahan ketik berasal dari kesalahan sedangkan kesalahan kognitif
|