Home Start Back Next End
  
20
dilakukan   untuk   mengenali   kata-kata   yang   mungkin   saja   kurang   dikenali   atau
terlewatkan
pada
pass
pertama,
pada
tahap
ini adaptive
classifier
telah
memperoleh
informasi
lebih
dari pass
pertama.
Tahap
terakhir
menyelesaikan
ruang fuzzy dan
memeriksa hipotesis alternatif pada ketinggian-x untuk mencari teks dengan smallcap.
Tesseract dirancang untuk mengenali teks putih di atas latar hitam dan teks hitam
di atas latar putih. Hal ini menyebabkan rancangan mengarah pada analisis komponen
terhubung/connected
component
(CC)
dan
operasi
pada outline
komponen.
Langkah
pertama
setelah
analisis
CC
ialah
menemukan blob pada region
teks. Sebuah blob
merupakan
unit
putatif yang
dapat
diklasifikasikan,
yang
mana
bisa
satu
atau
lebih
komponen-komponen yang saling tumpang tindih secara horizontal.
Menurut Smith (2009) ada beberapa
langkah yang dilakukan oleh tesseract untuk
pengenalan karakter adalah sebagai berikut :
2.5.2
Pencarian Teks-Line dan Kata
Algoritma line finding dirancang supaya halaman
yang
miring
dapat
dikenali
tanpa
harus de-skew (proses untuk
mengubah
halaman
yang
miring
menjadi tegak
lurus)
sehingga  tidak 
menurunkan  kualitas  gambar.  Kunci  bagian  proses 
ini  adalah  blob
filtering dan line construction.
(Smith, 2009,p1).
Filtered
blob
lebih
cenderung
cocok
dengan
model non-overlapping,
parallel,
tetapi berupa garis-garis miring (sloping line). Pemrosesan blob oleh koordinat x
memungkinkan untuk menetapkan blob ke sebuah baris teks yang unik. Sementara
penelusuran kemiringan di seluruh halaman, dengan banyak mengurangi bahaya
penugasan
ke
baris
teks
yang
salah
dengan
adanya
kemiringan
(skew).
Setelah blob
tersaring  ditetapkan  ke 
garis,  sebuah 
median  terkecil  dari  kotak-kotak  yang  cocok
Word to PDF Converter | Word to HTML Converter