45
kemudian menjadikan tesseract sebagai mesin komersial saat itu.
(Smith, 2009,
p3)
2.2.5.3 Klasifikasi Bentuk
1.
Static Classifier
Versi awal Tesseract menggunakan
topologi fitur yang dikembangkan dari karya
Shillman. Ide selanjutnya melibatkan penggunaan segmen dari pendekatan polygonal
sebagai fitur, tapi pendekatan ini tidak cukup kuat jika terdapat karakter yang rusak.
Solusi yang akhirnya
digunakan adalah konsep
bahwa fitur yang tidak diketahui tidak
perlu sama dengan fitur dalam data pelatihan.
Selama pelatihan, segmen hasil
pendekatan polygonal digunakan untuk feature,
namun pada proses pengenalan, feature kecil yang panjangnya tetap (dalam unit
ternomalisasi) diekstrasi dari outline
dan dicocokan secara many-to-one
terhadap
prototype dari feature yang ter-cluster pada data pelatihan (Smith, 2009, p3)
2.
Adaptive Classifier
Tesseract
tidak menggunakan template classifier, tetapi menggunakan
adaptive
classifier
yang hampir sama seperti static classifier. Perbedaan yang signifikan antara
static classifier dan adaptive classifier adalah
adaptive classifier menggunakan
normalisasi isotropic baseline/x-height, sedangkan static classifier menggunakan
normalisasi
karakter oleh centroid.
Momen pertama
untuk posisi dan momen kedua
untuk normalisasi ukuran yang anisotropic (Smith, 2005, p4)
Feature merupakan komponen pendekatan polygonal dari outline
sebuah bentuk.
Pada training, vector fitur 4 dimensi (x, posisi-y, arah, panjang) diturunkan dari setiap
elemen pendekatan polygonal dan dikelompokkan untuk membentuk prototipikal vector.
|