Home Start Back Next End
  
24
pendekatan sebagai fitur, tapi pendekatan ini juga tidak cukup kuat untuk karakter yang
rusak. Solusi terobosan yang digunakan adalah gagasan bahwa
fitur
yang tidak diketahui
tidak perlu sama dengan fitur dalam data pelatihan.
Selama
pelatihan,
segmen
dari
pendekatan
poligonal
digunakan
untuk feature,
namun
pada
proses
pengenalan, feature
kecil
yang
panjangnya
tetap
(dalam
unit
ternormalisasi)
diekstraksi
dari outline dan
dicocokkan
secara many-to-one
terhadap
prototipe feature yang ter-cluster pada data pelatihan. (Ray Smith, 2009,p3)
2.5.8.2 Adaptive Classifier
Tesseract
tidak  menggunakan
template  classifier,  tetapi menggunakan
feature  yang
sama
seperti
static
classifier.
Perbedaan yang
signifikan antara
static
classifier
dan
adaptive
classifier,
terlepas
dari
data
pelatihan,
adaptive
classifier
menggunakan
normalisasi
isotropic
baseline/x-height, sedangkan
static
classifier
menormalisasi
karakter
oleh
centroid
(momen
pertama)
untuk
posisi
dan
momen
kedua
untuk
normalisasi
ukuran
yang
anisotropic. (Ray
Smith, 2005, p4)
Feature merupakan komponen pendekatan poligonal dari outline
sebuah bentuk.
Pada
training,
vektor
fitur
4
dimensi
(x,
posisi-y, arah,
panjang)
diturunkan
dari
setiap
elemen pendekatan poligonal dan dikelompokkan untuk membentuk prototipikal vektor
fitur.
Pada
pengenalan,
elemen-elemen
poligon
dipecah
menjadi
bagian-bagian
yang
lebih pendek dengan panjang yang sama, sehingga dimensi panjang dieliminasi dari
vektor fitur. Beberapa fitur pendek dicocokkan dengan setiap fitur prototipikal dari
training, hal ini membuat proses klasifikasi lebih kuat
terhadap karakter yang terputus.
(Ray Smith, 2005, p5)
Word to PDF Converter | Word to HTML Converter