![]() 21
digunakan
untuk
memperkirakan
baseline,
dan
blob
yang
sudah
difilter
dengan
baik
dipasang kembali ke garis yang sesuai. (Ray Smith, 2009, p2)
Langkah terakhir dari proses pembuatan garis (line creation)
adalah
menggabungkan
blob
yang
overlapping,
menempatkan
diacritical
marks
dengan
dasar
yang tepat, dan
menghubungkan bagian-bagian dari beberapa karakter
yang rusak secara
benar. (Ray Smith, 2009, p2)
2.5.3
Baseline Fitting
Setelah baris teks telah ditemukan, garis pangkal (baseline) dicocokan secara
lebih tepat menggunakan quadratic spline. Hal ini merupakan salah satu kelebihan
sistem OCR
dan
memungkinkan
tesseract
untuk
menangani
halaman
dengan
garis
pangkal (baseline) yang miring. (Ray Smith, 2009, p2)
Baseline dicocokan oleh partisi blob menjadi beberapa kelompok dengan
sebuah
perpindahan
kontinu
yang
cukup
layak
untuk garis pangkal lurus yang asli. Quadratic
spline
dicocokan
ke
partisi
yang
paling
padat
(diasumsikan
sebagai baseline)
dengan
kuadrat terkecil. Quadratic
spline memiliki
keuntungan
bahwa
perhitungan
ini
cukup
stabil
tetapi
merugikan
jika
muncul diskontinuitas ketika beberapa segmen
spline
diperlukan. Dalam hal ini, cubic spline bekerja lebih baik. (Ray Smith, 2009, p2)
Gambar 2.4 Contoh halaman dengan baseline miring
2.5.4
Perkiraan Ketinggian X Pada Teks
Setelah
menemukan
baris
teks
dan
menyusun
blok
blob menjadi baris-baris,
Tesseract
mengestimasi
ketinggian-x
untuk
setiap
baris
teks.
Pertama,
algoritma
estimasi ketinggian-x menentukan batas-batas maksimum dan minimum dari ketinggian-
|