44
mode
ketinggian yang diambil menjadi ketinggian-x dan ketinggian-ascender
memiliki jumlah yang cukup terhadap jumlah keseluruhan blob pada baris.
4.
Chopping atau Pemotongan Karakter
Tesseract
menguji baris teks (text line) untuk menentukan apakah baris
teks itu
merupakan fixed pitch
atau bukan. Bila ditemukan fixed pitch text,
tesseract
akan mengubah kata
kata tersebut menjadi sekumpulan karakter.
(Smith, 2009, p2)
5.
Pemisahan Karakter Terhubung
Apabila hasil dari pengenalan kata tidak memuaskan, tesseract
akan
mencoba
untuk memperbaiki hasil dengan memisahkan blob
dengan hasil
terburuk dari pengklasifikasian (classifier) karakter. Kandidat untuk titik-titik
pemisahan didapat
dari simpul cekung dari pendekatan polygonal outline
dan
mungkin saja terdapat titik cekung berlawanan lainnya atau segmen garis. Proses
ini dapat menghabiskan
3 pasang titik pemotongan untuk memisahkan karakter
dari set ASCII (Smith, 2009, p3)
6.
Asosiasi Karakter Patah
Ketika potongan yang potensial tidak ada lagi, dan
kata tersebut masi
belum cukup baik, kata tersebut diberikan
kepada associator. Associator
membuat pencarian A*(best first search) dari segmentasi grafik yang mungkin
merupakan kombinasi dari blob yang dipotong secara maksimal ke dalam
kandidat karakter. Ketika A* segmentation diimplementasikan pertama kali pada
tahun 1989, akurasi tesseract terhadap karakter yang rusak meningkat
yang
|