![]() 22
x yang dapat diterima
berdasarkan ukuruan garis inisial yang dihitung untuk blok.
Kemudian, setiap baris secara terpisah, ketinggian bounding box blob terjadi pada garis
dikuantisasi dan dikumpulkan
menjadi
sebuah
histogram.
Dari
histogram ini, algoritma
pencarian
ketinggian-x
mencari
ketinggian
dua mode
yang
paling
sering
terjadi
yang
cukup jauh terpisah untuk menjadi ketinggian-x dan ketinggian-ascender. Untuk
mengantisipasi noise,
algoritma
memastikan mode
ketinggian yang diambil menjadi
ketinggian-x dan ketinggian-ascender memiliki
jumlah
yang
cukup
atau
kejadian-
kejadian relatif terhadap jumlah keseluruhan blob pada baris.
2.5.5
Chopping atau Pemotongan Karakter
Tesseract menguji
garis
teks
(text
line)
untuk
menentukan
apakah
mereka
merupakan
fixed pitch. Bila ditemukan
fixed
pitch
text, tesseract
memotong
kata-kata
menjadi karakter-karakter. (Ray Smith, 2009, p2)
Gambar 2.5 Pemotongan karakter
2.5.6
Pemisahan Karakter Terhubung
Apabila
hasil
dari
pengenalan kata
tidak memuaskan,
tesseract
berusaha
untuk
memperbaiki
hasil
dengan
memisahkan blob
dengan
keyakinan
terburuk
dari
pengklasifikasian (classifier)
karakter.
Kandidat
untuk
titik-titik pemisahan
ditemukan
dari
simpul
cekung
dari pendekatan
poligonal
outline
dan
mungkin
saja
terdapat
titik
cekung berlawanan lainnya atau segmen garis. Ini akan
menghabiskan
sampai 3 pasang
titik pemotongan untuk memisahkan karakter yang terhubung dari set ASCII. (Ray
Smith, 2009, p3)
|