Home Start Back Next End
  
19
2.5.1 Artitektur Tesseract
Gambar 2.3 Arsitektur tesseract
Tesseract  OCR 
mengasumsikan 
input 
yang  diterima  berupa  sebuah  binary
image. Pertama, analisis dilakukan pada komponen terhubung/Connected Component
(CC)
untuk
menemukan
di
mana
outline
komponen
disimpan. 
Pada
tahap
ini
outlines
dikumpulkan
bersama
menjadi blob.
Blob
disusun
menjadi
baris teks, sedangkan garis
dan region dianalisis untuk pitch tetap dan teks proporsional. Baris teks dipecah menjadi
kata-kata
berbeda
menurut
jenis
spasi
karakter.
Teks
dengan pitch tetap
dibagi
menjadi
sel-sel
karakter.
Teks
proporsional
dipecah menjadi
kata-kata
dengan menggunakan
ruang
pasti
dan
ruang
fuzzy.
Pengenalan
kata
pada
image
dilakukan
pada
dua
tahap
proses yang disebut pass-two (Smith, 2009).
Pada pass pertama dilakukan untuk mengenali masing-masing kata pada
gilirannya. 
Kata-kata
yang
sukses
pada
pass
pertama
yaitu
kata-kata
yang
terdapat
di
kamus
dan
tidak
ambigu
kemudian
diteruskan
ke adaptive
classifier sebagai data
pelatihan. Begitu adaptive classifier
memiliki sampel
yang cukup, adaptive classifier ini
dapat 
memberikan 
hasil  klasifikasi  bahkan  pada  pass pertama.  Proses  pass kedua
Word to PDF Converter | Word to HTML Converter