20
dilakukan untuk mengenali kata-kata yang mungkin saja kurang dikenali atau
terlewatkan
pada
pass
pertama,
pada
tahap
ini adaptive
classifier
telah
memperoleh
informasi
lebih
dari pass
pertama.
Tahap
terakhir
menyelesaikan
ruang fuzzy dan
memeriksa hipotesis alternatif pada ketinggian-x untuk mencari teks dengan smallcap.
Tesseract dirancang untuk mengenali teks putih di atas latar hitam dan teks hitam
di atas latar putih. Hal ini menyebabkan rancangan mengarah pada analisis komponen
terhubung/connected
component
(CC)
dan
operasi
pada outline
komponen.
Langkah
pertama
setelah
analisis
CC
ialah
menemukan blob pada region
teks. Sebuah blob
merupakan
unit
putatif yang
dapat
diklasifikasikan,
yang
mana
bisa
satu
atau
lebih
komponen-komponen yang saling tumpang tindih secara horizontal.
Menurut Smith (2009) ada beberapa
langkah yang dilakukan oleh tesseract untuk
pengenalan karakter adalah sebagai berikut :
2.5.2
Pencarian Teks-Line dan Kata
Algoritma line finding dirancang supaya halaman
yang
miring
dapat
dikenali
tanpa
harus de-skew (proses untuk
mengubah
halaman
yang
miring
menjadi tegak
lurus)
sehingga tidak
menurunkan kualitas gambar. Kunci bagian proses
ini adalah blob
filtering dan line construction.
(Smith, 2009,p1).
Filtered
blob
lebih
cenderung
cocok
dengan
model non-overlapping,
parallel,
tetapi berupa garis-garis miring (sloping line). Pemrosesan blob oleh koordinat x
memungkinkan untuk menetapkan blob ke sebuah baris teks yang unik. Sementara
penelusuran kemiringan di seluruh halaman, dengan banyak mengurangi bahaya
penugasan
ke
baris
teks
yang
salah
dengan
adanya
kemiringan
(skew).
Setelah blob
tersaring ditetapkan ke
garis, sebuah
median terkecil dari kotak-kotak yang cocok
|