Home Start Back Next End
  
41
5.     Penelusuran edge
dengan hysteresis. Hysteresis digunakan untuk menghilangkan
goresan. Dari tahap double thresholding, dihasilkan edge dengan kategori kuat dan
lemah. Edge dengan kategori kuat dimasukkan sebagai edge pada citra. Sementara,
edges dengan kategori lemah hanya dimasukkan sebagai edge pada citra jika edge
tersebut berhubungan dengan edges dengan kategori kuat.
2.2.5
Tesseract OCR
2.2.5.1 Definisi Tesseract
Tesseract adalah engine OCR open source yang awalnya dikembangkan oleh HP
(Hewlett-Packard) antara tahun 1984 dan 1994. Tesseract
berawal
sebuah proyek
penelitian PhD di HP
Labs, Bristol oleh Ray Smith. Setelah penelitian bersama antara
HP Labs di Bristol dan divisi
Scanner HP di Colorado, Tesseract secara signifikan
memimpin dalam hal akurasi atas mesin komersial. (Smith, 2005, p1)
Tahap perkembangan berikutnya berlangsung di
HP Labs
Bristol sebagai
investigasi OCR. Pada tahun 1994, pengembangan berhenti sepenuhnya. Mesin ini
dikirim ke UNLV (University Nevada Las Vegas) pada tahun 1995 untuk
menjalani tes
akurasi tahunan OCR (Smith, 2005)
2.2.5.2 Arsitektur Tesseract
Tesseract
OCR
mengasumsikan input yang sebagai
sebuah binary image.
Pertama, analisis dilakukan pada komponen
terhubung/Connected Component (CC)
untuk menemukan di mana outline
komponen disimpan. Pada tahap ini outlines
dikumpulkan menjadi blob. Blob disusun menjadi baris teks, sedangkan garis dan region
dianalisis agar pitch tetap dan teks tetap proporsional. Baris teks dipecah menjadi kata-
kata berbeda berdasarkan
jenis spasi karakter. Teks dengan pitch
tetap dibagi menjadi
Word to PDF Converter | Word to HTML Converter