2012100653IFBab2001 - page 39 of 55

Page 39 of 55

kemudian menjadikan tesseract sebagai mesin komersial saat itu.

(Smith, 2009,

p3)

2.2.5.3 Klasifikasi Bentuk

Static Classifier

Versi awal Tesseract menggunakan

topologi fitur yang dikembangkan dari karya

Shillman. Ide selanjutnya melibatkan penggunaan segmen dari pendekatan polygonal

sebagai fitur, tapi pendekatan ini tidak cukup kuat jika terdapat karakter yang rusak.

Solusi yang akhirnya

digunakan adalah konsep

bahwa fitur yang tidak diketahui tidak

perlu sama dengan fitur dalam data pelatihan.

Selama pelatihan, segmen hasil

pendekatan polygonal digunakan untuk feature,

namun pada proses pengenalan, feature kecil yang panjangnya tetap (dalam unit

ternomalisasi) diekstrasi dari outline

dan dicocokan secara many-to-one

terhadap

prototype dari feature yang ter-cluster pada data pelatihan (Smith, 2009, p3)

Adaptive Classifier

Tesseract

tidak menggunakan template classifier, tetapi menggunakan

adaptive

classifier

yang hampir sama seperti static classifier. Perbedaan yang signifikan antara

static classifier dan adaptive classifier adalah

adaptive classifier menggunakan

normalisasi isotropic baseline/x-height, sedangkan static classifier menggunakan

normalisasi

karakter oleh centroid.

Momen pertama

untuk posisi dan momen kedua

untuk normalisasi ukuran yang anisotropic (Smith, 2005, p4)

Feature merupakan komponen pendekatan polygonal dari outline

sebuah bentuk.

Pada training, vector fitur 4 dimensi (x, posisi-y, arah, panjang) diturunkan dari setiap

elemen pendekatan polygonal dan dikelompokkan untuk membentuk prototipikal vector.