Home Start Back Next End
  
42
kotak –
kotak
karakter. Teks
yang
proporsional dipecah menjadi kata-kata dengan
menggunakan ruang pasti dan ruang fuzzy. Pengenalan kata pada image dilakukan pada
dua tahap proses yang disebut pass-two (Smith, 2009)
Pass
pertama bertujuan
untuk mengenali masing-masing kata. Kata-kata yang
terdapat di kamus dan tidak ambigu, diteruskan ke adaptive classifier
sebagai data
pelatihan. Setelah
adaptive classifier
memiliki sampel yang cukup, adaptive classifier
akan
dapat memberikan hasil
meskipun masih pada
pass
yang
pertama. Proses pass
kedua dilakukan jika menemukan kata-kata yang kurang dikenali atau terlewat pada pass
pertama. Tahap terakhir menyelesaikan
ruang fuzzy
dan
memeriksa hipotesis alternatif
pada ketinggian-x untuk mencari teks dengan smallcap.
Menurut Smith (2009) ada beberapa langkah yang dilakukan oleh tesseract untuk
pengenalan karakter, yaitu:
1.
Pencarian Baris Teks dan Kata
Algoritma line finding dirancang supaya halaman yang miring tetap dapat
diproses tanpa
harus di-skew (mengubah halaman yang miring menjadi tegak
lurus) sehingga tidak menurunkan kualitas gambar. Bagian proses terpenting
pada proses ini adalah blob filtering dan line construction (Smith, 2009, p1)
Filtered
blob lebih
cocok dengan model non-overlapping, parallel,
berupa garis-garis miring (sloping line). Pemrosesan blob oleh koordinat x
memungkinkan penetapan blob
ke sebuah baris teks yang unik. Setelah blob
yang tersaring ditetapkan ke garis, sebuah median terkecil dari kotak-kotak yang
cocok,
digunakan untuk memperkirakan baseline.
Dan blob
yang sudah difilter
dengan baik dipasang kembalki ke garis yang sesuai (Smith, 2009, p2)
Word to PDF Converter | Word to HTML Converter