LBM200524Bab2

BAB 2

LANDASAN

TEORI

2.1

Proses

Penghasilan dan

Pemahaman Suara pada

Manusia

Proses menghasilkan suara dimulai dari adanya ide atau pesan di dalam otak manusia

yang

ingin

disampaikan kepada

orang

lain. Lalu

pesan

ini

diterjemahkan ke

dalam bahasa,

setelah

menemukan kode

bahasa

yang

tepat,

langkah

berikutnya

otak

akan

memberikan

perintah

kepada

jaringan

saraf

untuk

membuat

pita

suara

manusia

bergetar

dengan

tepat,

selain

itu

juga

untuk

membentuk

bidang

suara,

sehingga

akan

dihasilkan suara

yang

diinginkan serta mewakili pesan yang ingin disampaikan (lihat gambar 2.1).

MACHINE COUNTERPARTS

SPEECH GENERATION

SPEECH

RECOGNITION

MACHINE COUNTERPARTS

PRINTED TEXT

(50BPS)

PHONEMES SEQUENCES,

PROSODY CONVENTION

(200 BPS)

(DISCRETE)

(CONTINUOUS)

ARTICULATORY

MOTION(2000 BPS)

MESSAGE FORMULATION

LANGUAGE CODE

NEURO-MUSCULAR

ACTIONS

ACOUSTIC

SYSTEM

(VOCAL

TRACT)

SOUND SOURCE

(VOCAL CORDS)

TALKER

ACOUSTIC

WAVE

ELECTRICAL

TRANSMISSION

(30000

BPS)

MESSAGE

COMPREHENSION

LANGUAGE

CODE

NEURAL TRANSDUCTION

BASILAR MEMBRANE

MOTION

LISTENER

MEANING SEMANTICS

PHONEMES, WORDS,

SENTENCES,

PROSODY (SYNTAX)

(DISCRETE)

(CONTNUOU

INUOU

FEATURE EXTRACTION

RE-CODING

ACOUSTIC SPECTRUM

ANALYSIS

Gambar 2.1 Diagram

Skematik Dari

Proses

Produksi dan Persepsi

Suara

(Rabiner dan Juang, 1993, p12)

Proses pemahaman suara dimulai saat sinyal suara dari lawan bicara ditangkap oleh

selaput basillar,

kemudian selaput ini menghasilkan analisis spektrum bergerak. Proses pada

neural

transduction

mengubah

sinyal

spektral

yang

tadi

dihasilkan oleh

selaput

basillar

menjadi sinyal aktivitas pada saraf pendengaran. Aktifitas saraf tersebut diubah menjadi kode

bahasa

pada

proses

yang

dilalui

sebelum pesan

tersebut

diolah

oleh

otak

manusia,

pada

akhirnya pemahaman terhadap pesan yang masuk didapatkan.

Pemahaman pada

unsur bunyi yang

mendominasi suatu bahasa akan

menjadi sangat

penting.

Dengan

mengetahui unsur-unsur

apa

saja

yang

terdapat

dalam

suatu

bahasa

diharapkan dapat mengatasi kendala dalam mengenali kata-kata ucapan manusia.

2.1.1 Proses

Penghasilan Ucapan

Untuk

berkomunikasi manusia

menggunakan

ucapan.

Ucapan

yang

dihasilkan

membentuk suatu bunyi

yang dapat dimengerti oleh orang

lain. Bunyi tersebut

merupakan

bahasa dalam kehidupan manusia..

Proses

penghasilan ucapan diawali dengan adanya perintah dari

otak kepada organ-

organ tubuh pernafasan manusia untuk membentuk suatu bunyi tertentu (gambar- 2.2). Udara

masuk

dalam

paru-paru

melalui

proses

pernafasan biasa. Kemudian udara dikeluarkan

melalui tenggorokan

menuju

larinx.

larinx

aliran

udara

yang

timbul

menyebabkan pita

suara bergetar. Bunyi yang dihasilkan akan dikeluarkan bersamaan dengan arus udara melalui

saluran pernafasan. Organ–organ pada

saluran pernafasan seperti pharinx,

lidah, mulut

dan

bibir turut membentuk bunyi yang diinginkan.

Paru-paru

(lungs)

dan

batang

tenggorokan (trachea)

mengatur

arus

udara

yang

diperlukan untuk

berbicara,

sehingga keras

dan

lembutnya ucapan

yang dihasilkan sangat

bergantung pada paru-paru dan batang tenggorokan. Larinx adalah rongga pada ujung

trachea dimana terdapat pita suara, sehingga larinx disebut juga voicebox.

Gambar 2.2 Anatomi

Organ Penghasil

Ucapan

Pita

suara

memiliki

fungsi

akustik

sebagai

sumber

pembangkit

ucapan.

Pita

suara

yang membuka dan menutup

membentuk rongga di antara sepasang pita suara yang disebut

glotis.

Pita

suara

berfungsi

juga

sebagai

klep

yang

dapat

membuka,

menutup,

membuka

lebar,

menutup

sebagian,

atau

menutup

habis

arus

udara

yang

melewatinya. Pada

saat

pernafasan

normal

pita

suara

terbuka

lebar

sehingga

arus

udara

dapat

leluasa

masuk

dan

keluar dari sistem pernafasan manusia. Akan

tetapi pada saat

manusia berbicara, pita suara

dapat

menutup rapat arus udara yang ada untuk menghasilkan bunyi sesuai dengan perintah

otak.

Ketika

pita

suara

menegang,

aliran

udara

mengakibatkan pita

suara

bergetar

menghasilkan bunyi

berucapan

(voiced) (Rabiner dan Juang,

1993, p14).

Ketika pita

suara

melonggar untuk menghasilkan suatu bunyi, aliran udara dipaksa melewati celah sempit pada

bidang

ucapan sehingga

dihasilkan

bunyi

tak

berucapan

(unvoiced) (Rabiner

dan

Juang,

1993, p15).

Bidang

ucapan

berfungsi

untuk

pewarnaan

dan

artikulasi

ucapan. Pada

saat

gelombang

akustik

melalui

bidang

ucapan,

frekuensinya dipengaruhi

oleh resonansi

dalam

rongga

bidang

ucapan.

Resonansi

ini

sangat

tergantung

pada

bentuk

dan

ukuran

bidang

ucapan manusia. Bidang ucapan meliputi pharinx (dari esophagus

sampai mulut) dan mulut.

Seluruh

organ bicara

setelah

glotis

merupakan bagian dari

bidang

ucapan.

Pada

laki-laki

dewasa panjang total bidang ucapan mencapai sekitar 17 cm (Rabiner dan Juang, 1993, p14).

Potongan melintang (cross-sectional) bidang ucapan ditentukan dari posisi lidah, bibir,

rahang,

dan langit-langit

lunak (velum), dan biasanya

berkisar

dari nol sampai 20 cm²

(Rabiner dan Juang, 1993, p14 ). Sedangkan rongga hidung (nasal track) dimulai dari velum

dan berakhir pada lubang hidung (nostrils). Ketika velum

menurun/mengendor,

rongga

hidung secara akustik dipasangkan pada bidang ucapan untuk menghasilkan bunyi ucapan.

Bidang suara secara akustik dapat dimodelkan sebagai tabung potongan melintang tak

seragam

sepanjang

±17 cm

pada

lelaki

dewasa;

terbuka

pada

salah

satu

ujungnya,

dan

tertutup

pada

ujung

yang

lain

(Santosa,

2002).

Tabung

utama

ini

bercabang di

tengah

membentuk rongga hidung yang berupa tabung sepanjang ±13 cm, dengan katup (anak tekak)

pada percabangannya sebagaimana pada gambar 2.3.

Gambar 2.3 Representasi Semantik dari

Mekanisme

Penghasilan Suara

(Rabiner dan

Juang,1993,p17 )

Untuk mempermudah analisis diasumsikan bahwa katup anak tekak tertutup. Tabung

tersebut mempunyai banyak frekuensi alami, yaitu frekuensi pada saat fungsi pindah

(transfer function)

tabung

maksimum.

Jika

potongan

melintang tabung tersebut

seragam,

maka fungsi alami akan terjadi pada :

1,2,3,...

udara

350 m/detik, untuk

panjang tabung

=17

cm, diperoleh frekuensi alami

pada

kelipatan

ganjil

mendekati

500

Hz.

Karena

kenyataannya

daerah

bidang

suara

tak

seragam,

maka

resonansi

terjadi

dengan

spasi

frekuensi

yang

berbeda.

Walaupun demikian

untuk

setiap

lebar

bidang

tetap

sekitar

kHz

terjadi

sekali

resonansi. Resonansi

ini

disebut

dengan

formant, yaitu

frekuensi

alami

bidang suara yang merupakan bagian penting dalam modulasi suara. Formant

ditandai

dengan angka,

sesuai dengan bertambahnya frekuensi.

2.1.2 Gangguan Pada

Sinyal

Ucapan

Sinyal

ucapan

yang

masuk ke

dalam

sistem

pengenalan

ucapan,

tidak

selalu

bersih

dari

gangguan yang berupa noise atau derau. Noise merupakan semua bentuk besaran,

yang

bukan merupakan bagian dari besaran atau sesuatu yang diinginkan, misalnya sinyal ucapan.

Ada dua

macam noise yaitu internal

noise dan external noise. Internal

noise dihasilkan oleh

efek panas

pada

penguat sinyal

(amplifier).

Banyaknya

noise

yang

ditambahkan

dalam

sinyal bergantung pada bandwidth amplifier masukan. Salah satu cara untuk menekan

internal

noise

adalah

memilih

amplifier yang

memiliki

bandwidth mendekati

bandwidth

sinyal

masukan. Jenis

kedua

adalah

external

noise.

Noise jenis

ini

masuk ke

dalam

sinyal

ketika sinyal bergerak di dalam kabel. External

noise dapat dihasilkan dari berbagai macam

sumber.

Salah

satu

contohnya, pada

banyak eksperimen penambahan data,

Hz noise

dihasilkan oleh jalur tenaga AC. Noise jenis ini muncul sebagai sinyal interferensi sinusoidal

di dalam papan pengukur. Noise yang masuk ke dalam papan pengukur berasal dari sumber-

sumber eksternal. Hal ini terjadi karena sinyal sangat mudah dimasuki oleh sinyal lainnya di

dalam

lingkungan

aktifitas

elektris.

Untuk

menghilangkannya,

dapat

dilakukan

beberapa

cara, misalnya menjauhkan kabel penghantar sinyal dari lingkungan aktivitas elektris.

Filter

dapat

digunakan untuk

menekan

adanya

noise

pada

sinyal.

Untuk

beberapa

aplikasi

penambahan

data

cukup

digunakan

low-pass

filter.

Low-pass filter

melewatkan

komponen frekuensi yang lebih rendah tetapi melemahkan komponen dengan frekuensi lebih

tinggi. Cut-off frekuensi dari filter harus cocok dengan frekuensi sinyal yang diinginkan saat

ini serta sampling

rate yang digunakan

untuk pengubahan sinyal analog ke

sinyal digital.

Antialiasing

filter adalah

low-pass

filter

yang digunakan

untuk

mencegah

frekuensi

yang

lebih tinggi menimbulkan distorsi pada sinyal digital (Matlab, 2002).

2.2

Unsur-Unsur Bunyi pada

Bahasa

Bunyi–bunyi ujar

menurut Samsuri secara

garis besar dapat digolongkan menjadi 2

bagian yaitu vokoid dan kontoid.

Vokoid ialah

bunyi yang

bagi pengucapannya jalan

mulut tidak

terhalang, sehingga

arus udara

dapat

mengalir dari

paru- paru

bibir

dan

keluar

tanpa dihambat, tanpa harus

melalui

lubang

sempit,

tanpa

dipindahkan dari

garis

tengah

pada

alurnya,

dan

tanpa

menyebabkan sebuahpun alat-alat supra glottal bergetar (Samsuri, 1994, p103).

Kontoid

ialah bunyi

yang bagi pengucapannya arus udara dihambat sama sekali oleh

penutupan

larynx

atau

jalan di

mulut,

atau dipaksa

melalui

jalan sempit,

atau

dipindahkan

dari

garis

tengah

daripada

alurnya

melalui

lubang

lateral,

atau

menyebabkan bergetarnya

salah satu alat- alat supra glottal (Samsuri, 1994, p103).

Selain itu masih terdapat unsur-unsur bunyi lain seperti :

Fonem

Vokal

Konsonan

Nasal

Diftong

Frikatif

Morfem

2.2.1

Fonem

Ahli ilmu bunyi yang paling pandai sekalipun tidak dapat membedakan semua bunyi

secara objektif. Tidak ada dua orang pendengar, betapapun kecakapannya dalam ilmu

bunyi,

dapat

menghasilkan dua

transkripsi

yang

sama

benar

tentang

bahasa

yang

sama

(Samsuri,1994).

Untuk itu diperlukan pengetahuan tentang fonem. Fonem didefinisikan sebagai :

bunyi-bunyi yang membedakan arti atau pengertian (Samsuri, 1994, p124)

satuan bunyi terkecil yang mampu menunjukan kontras makna (Kamus Besar Bahasa

Indonesia, 2001, p319)

Seperti

juga

bunyi-bunyi,

fonem-fonem

dalam

bahasa

Indonesia

dapat

dibagi

menjadi

dua

kelompok,

yaitu

fonem-fonem

segmen

dan

fonem-fonem

suprasegmen. Fonem-fonem segmen dibagi

lagi

menjadi

dua

kelompok, yaitu

fonem vokal

(/i.

,u,e,a,o/) dan

fonem

konsonan, sedangkan fonem

suprasegmen terdiri atas tekanan, nada, panjang serta jeda.

2.2.2

Vokal

Vokal didefinisikan sebagai :

Bunyi bahasa yang dihasilkan oleh arus udara dari paru- paru melalui pita suara dan

penyempitan pada saluran suara di atas glottis (Kamus Besar Bahasa Indonesia, 2001,

p1263).

Satuan

fonologis

yang

diwujudkan

dalam

lafal

tanpa

pergeseran,

seperti

[a,i,u,e,o]

(Kamus Besar Bahasa Indonesia , 2001, p1263).

2.2.3

Konsonan

Menurut

Kamus

Besar

Bahasa

Indonesia konsonan

diartikan sebagai

bunyi bahasa

yang dihasilkan dengan menghambat aliran udara pada salah satu tempat disaluran suara di

atas

glottis

atau

fonem

yang

mewakili suatu

bunyi

kontoid.

Konsonan

dibagi

menjadi

dua

bagian yaitu ambisilabis dan silabis. Ambisilabis adalah konsonan

yang menjadi transisi dari

dua

suku

kata.

Silabis

adalah konsonan yang

mendukung puncak

kenyaringan dalam

suku

kata (Kamus Besar Bahasa Indonesia, 2001, p589).

2.2.4 Semi vokal

Semi

vokal

adalah

bunyi

bahasa

yang

mempunyai ciri

vokal

ataupun

konsonan,

mempunyai sedikit

geseran

dan

tidak

muncul

sebagai

inti

suku

kata,

missal

[y],

[r],

[w]

(Kamus Besar Bahasa Indonesia, 2001, p1030).

2.2.5 Nasal

Nasal bersangkutan dengan bunyi bahasa yang dihasilkan dengan mengeluarkan udara

melalui hidug yaitu m, n, ng, ny (Kamus Besar Bahasa Indonesia, 2001, p775).

2.2.6 Diftong

Diftong

adalah

suatu

kombinasi vokoid-

vokoid

silabis

(Samsuri,

1994,

p111).

Sedangkan menurut Kamus Besar Bahasa Indonesia diftong adalah bunyi vokal rangkap yang

tergolong dalam satu suku kata. Diftong dapat dikelompokkan menjadi beberapa jenis yaitu :

Lebar

: diftong yang terjadi dengan perubahan letak lidah yang agak banyak, misal ai

pada lantai

Naik

diftong yang bagian paling nyaringnya terdapat sesudah peluncurannya

Sempit :

diftong

yang

terjadi

dengan sedikit

perubahan

letak

lidah,

misal

pada

survei

Turun

: diftong

yang

bagian

paling

nyaringnya

terdapat

sebelum

peluncurannya,

misalnya au pada harimau

2.2.7

Frikatif

Frikatif adalah bunyi yang dihasilkan bila udara menggeser alat ucap, misal bunyi [f]

(Kamus Besar Bahasa Indonesia, 2001, p322).

2.2.8

Morfem

Morfem didefinisikan sebagai :

Komposit bentuk-pengertian

yang terkecil yang sama atau mirip yang berulang

(Samsuri, 1994, p170)

Satuan bentuk bahasa terkecil yang punya makna secara relatif

stabil dan tidak dapat

dibagi atas bagian bermakna yang lebih kecil (Kamus Besar Bahasa Indonesia, 2001,

p755).

Menurut Kamus Besar Bahasa Indonesia morfem dibagi menjadi beberapa jenis yaitu

Bebas

: morfem

yang

secara

potensial

dapat

berdiri

sendiri

dalam

suatu

bangun

kalimat

Dasar : morfem yang dapat diperluas dengan dibubuhi afiks

Dasar terikat

morfem dasar

yang hanya dapat

menjadi kata bila bergabung dengan

afiks atau dengan morfem lain

Gramatikal

morfem

yang

jumlahnya

terbatas

dan

berfungsi

sebagai

penghubung

diantara morfem leksikal

Leksikal : morfem yang jumlahnya tidak terbatas dan sangat produktif (mencangkup

kata penuh dan afiks derivatif)

Penyambung : unsusr yang diletakkan antara dua morfem lain

Segmental : morfem yang terjadi dari fonem segmental

Suprasegmental : morfem yang terjadi dari fonem suprasegmental

Terbagi : morfem yang realisasinya dalam bentuk morfem diantarai oleh unsur lain

Terikat : morfem yang tidak mempunyai potensi untuk berdiri sendiri dan yang selalu

terikat dengan morfem lain untuk membentuk ujaran

Unik : morfem yang hanya mampu berkombinasi dengan satu satuan tertentu

2.3

Teknologi

Suara

Ketika

seseorang

berbicara,

udara dari

paru-paru dikeluarkan

melalui bidang suara

dan keluar dari mulut berupa sebuah gelombang. Gelombang akustik yang sampai ke telinga

pendengar dikenali sebagai

ucapan

(speech)

dengan

warna

bunyi

(timbre),

periode (pitch),

frekuensi

resonans

fundamental (formant),

dan

kekerasan

(loudness)

yang

berbeda.

Gelombang

suara

mengandung

banyak

informasi

yang

memungkinkan telinga

dan

otak

manusia

membedakan karakter dan

cirinya, sehingga dapat dikenali

dan

dipahami.

Dengan

teknik

pemprosesan

suara

(speech

processing),

ciri

dan

karakter suara

dapat

dikenali.

Perkembangan

teknologi

yang

pesat

memungkinkan dilakukannya

pemprosesan

suara

menggunakan komputer.

Pemprosesan

suara

dapat

bagi

yaitu

analisis

suara

(speech

analysis) dan sintetis suara (speech synthetis).

Analisis

suara adalah bagian dari pemprosesan

suara

yang mengubah suara

manusia

menjadi bentuk digital yang sesuai untuk pengiriman

atau penyimpanan

oleh computer

(Santosa,2002).

Analisis

suara

memainkan

peranan

yang

sangat penting

dalam

pengenalan

ucapan

(speech

recognition),

pemahaman suara

(speech

understading)

dan

identifikasi

pembicara (speaker identification). Sedangkan fungsi sintetis suara merupakan kebalikan dari

analisis suara. Analisis dan sintetis suara dapat dilakukan baik dalam kawasan waktu maupun

kawasan frekuensi, sehingga ciri-ciri dan karakteristik suara dapat ditentukan.

Analisis

suara

menggunakan komputer

diawali

dengan

mengubah

sinyal

analog

menjadi sinyal digital

menggunakan ADC (analog

to digital converter). Sinyal suara analog

yang kontinu akan diubah

menjadi sinyal digital

yang diskret. Dalam hal

ini

terjadi proses

pencuplikan (sampling) dan kuantisasi (quantizing). Pencuplikan menjadi sinyal suara diskret

dalam

waktu,

dan

kuantisasi membuat

amplitudo sinyal

suara

menjadi

diskret.

Teori

pencuplikan

(sampling teorem) menyatakan

bahwa sinyal digital dapat mewakili sinyal

analog secara unik jika kecepatan cuplik sekurang-kurangnya 2 kali frekuensi tertinggi sinyal

analog

yang

dicuplik(Santosa, 2002). Dengan demikian

jika

frekuensi

cuplik F

Hz,

maka

frekuensi tertinggi

untuk

menyatakan sinyal analog

tidak dapat

melebihi

frekuensi Nyquist

/2 Hz.

Frekuensi

cuplik

yang kurang

dari

kali

frekuensi

Nyquist akan

menyebabkan

aliasing. Pencuplikan yang benar tidak akan menghilangkan informasi. Komponen frekuensi

sinyal suara bervariasi kurang lebih dari 80 Hz sampai 8 kHz, tetapi sebagian besar

komponen

yang berarti

terkonsentrasi di

bawah

kHz.

Oleh

karena

itu

pencuplikan

suara

dapat dilakukan pada frekuensi 8 kHz (Santosa, 2002).

2.3.1 Sejarah

Perkembangan Pengenalan Ucapan

Pemprosesan

sinyal suara telah dirintis sejak tahun

1779

dengan ditemukannya alat

pensintesa

ucapan secara

mekanis, namun

perkembangannya baru terlihat 143

tahun

kemudian yaitu pada tahun 1922 dengan ditemukannya

pensintesa ucapan elektris dan

selanjutnya ditemukannya spectogram pada tahun 1946 (Nugroho, 2001, p1) .

Penelitian

mengenai

pengenalan suara secara

otomatis

oleh

mesin

telah

dilakukan

selama

hampir 5 dekade. Ide

mengenai sistem pengenalan suara oleh

mesin muncul

sekitar

pada

tahun

1950-an. Pada

tahun 1950-an para

peneliti

mencoba

mengeksploitasi

ide dasar

tentang

acoustic-phonetics.

Pada

tahun

1952,

Bell

Laboratories, Davis,

Biddulp,

dan

Balashek

membangun sebuah

sistem

pengenalan digit

tertutup

untuk

seorang

pembicara.

Sedangkan

pada tahun

1956,

Oslon

dan

Belar

RCA

Laboratories

mencoba

membangun

sistem

yang

dapat

mengenali

10 kata

untuk

seorang

pembicara

dengan setiap

kata

dari 10

kata-kata tersebut memiliki bunyi yang sangat berbeda dan monosyllabic. Pada tahun 1959 di

Universitas

Colegge,

Inggris,

Fry

dan

Denes

mencoba

membuat

sebuah

pengenal

fonem

untuk mengenali 4 buah vokal dan 9 konsonan. Mereka menggunakan analisis spectrum dan

pembanding

pola

untuk

menganalisa suara.

Pada

tahun

yang

sama,

Forgie

dan

Forgie

membangun

sebuah

sistem

pengenalan

vokal

pada

MIT

Lincoln

Laboratories.

Pada

percobaan

tersebut

metode

yang

digunakan

untuk

analisis

spectral

adalah

filter

bank

dan

untuk menentukan vokal mana yang diucapkan digunakan estimasi waktu terhadap resonansi

vokal track.

Pada tahun

1960-an,

Jepang

turut serta mengambil

bagian

dalam

pengembangan

sistem

pengenalan

suara.

Beberapa

laboratorium di

Jepang

membangun

perangkat

keras

dengan tujuan khusus

untuk pengenalan suara sebagai bagian dari sistem mereka. Salah satu

perangkat

keras

yang

dikembangkan pada

tahap

awal

penelitian

dibuat

oleh

Suzuki

dan

Nakata dari

Radio

Reseach

Lab,

Tokyo,

untuk

mengenali suara

vokal.

Pada

tahun 1962,

Doshita dan Sakai dari Kyoto University berhasil membuat sebuah perangkat keras pengenal

fonem. Sumbangan lainnya diberikan oleh Nagata dan pekerja dari NEC Laboratories pada

tahun 1963, yaitu berupa perangkat keras pengenal digit.

Pada

tahun

1960-an

terdapat

penelitian

penting

yang

mempengaruhi penelitian

sistem pengenalan suara untuk masa-masa mendatang. Yang pertama dibuat oleh Martin dan

rekannya

dari

RCA Laboratories.

Mereka

membangun

sebuah

dasar

metode

normalisasi

waktu

(time-normalization

method) yang

memiliki kemampuan

untuk

mendeteksi awal

dan

akhir

ucapan.

Martin

terus

mengembangkan metode

tersebut

dan

mendirikan

sebuah

perusahaan

yang

bernama

Threshold Company,

yang

pertama kali

membuat,

memasarkan

dan

menjual produk

pengenal suara.

Pada

saat

yang

sama,

Rusia, Vintsyuk

mengajukan

penggunaan

metode

pemograman

dinamis

yang

sejalan

dengan

waktu

untuk

pengenalan

suara. Ini

merupakan dasar dari Dynamic Time Warping, yang penggunaannya tidak

diketahui oleh dunia barat sampai pada tahun 1980-an. Pada waktu itu metode formal lainnya

sudah

lama

diajukan

dan

digunakan. Penelitian

lainnya

dilakukan

oleh

Reddy

yang

menitikberatkan pada

pengenalan

suara

kontinu

(continuous

speech

recognition)

dengan

penelusuran dinamis terhadap fonem. Program penelitiannya di Carnegie Mellon

University

berkembang dan membuahkan hasil yang memuaskan.

Pada tahun 1970-an, terdapat sejumlah penelitian penting mengenai sistem

pengenalan suara. Untuk

pertama kalinya isolated

word

atau discrete

utterance

recognition

menjadi teknologi yang berguna berkat penelitian fundamental yang dilakukan oleh Velichko

dan

Zagoruyko di

Rusia,

Sakoe

dan

Chiba

Jepang,

dan

Itakura

Amerika

Serikat.

Penelitian

oleh

Rusia

membantu

penguasaan metode

pattern

recognition

untuk

sistem

pengenalan suara. Penelitian di Jepang menunjukan bagaimana metode pemograman dinamis

berhasil diterapkan. Sedangkan penelitian Itakura menunjukan

bagaimana ide mengenai

Linear

Predictive

Coding (LPC) berhasil diterapkan pada low-bit-rate

speech coding, yang

dapat

dikembangkan

menjadi

sistem

pengenalan

suara

dengan

menggunakan pendekatan

pengukuran jarak (distance measure) berdasarkan parameter spectral LPC.

Penelitian

penting

lainnya

pada

tahun

1970-an

dilakukan oleh

IBM

yang

berhasil

membangun

sebuah

sistem

dengan

menggunakan

pengenalan

suara

kosa

kata

besar

(large

vocabulary speech recognition). Peneliti mempelajari 3 fungsi utama sistem selama hampir 2

dekade.

Fungsi

pertama diberi

nama

New Raleigh

language

yang berfungsi sebagai simple

database

queries. Yang

kedua

adalah

laser

patent

text

language

yang

bertugas

menerjemahkan laser patents. Sedangkan yang ketiga, Tangora merupakan sistem

pendiktean pada memo sederhana.

Jika pada tahun 1970-an penelitian difokuskan pada isolated word recognition, maka

pada tahun 1980-an penelitian lebih difokuskan pada connected word recognition. Pada tahun

1980-an

terjadi

perubahan metode

penelitian

dari

template-based

approach

metode

pemodelan statistik (statistical modeling method). Metode pemodelan statistik

yang terkenal

adalah

hidden

Markov

model (HMM).

HMM

sebenarnya

telah

digunakan

oleh

beberapa

laboratorium

seperti IBM,

Institute

for Defense Analyses (IDA), dan Dragon

System. Akan

tetapi

penggunaan HMM

baru

tersebar

luas

pada

pertengahan

tahun

1980-an.

Teknologi

lainnya yang

muncul pada akhir tahun 1980-an adalah penggunaan Neural Network. Neural

Network pertama

kali

diperkenalkan

pada

tahun

1950-an,

tetapi

tidak

berkembang

karena

terdapat banyak masalah

pada implementasinya.

Akhirnya pada tahun 1980-an perhatian tertuju pada sistem pengenalan suara kontinu

dan kosa kata besar

yang penelitiannya didukung oleh Defense Advanced Research Projects

Agency

(DARPA). Penelitian mentargetkan pengenalan 1000 kata dengan pembicaran

kontinu dan fungsi

managemen database.

Program penelitian DARPA terus berlanjut hingga

tahun 1990-an.

Penelitian

lainnya

yang berperan

serta antara lain diberikan

oleh CMU

dengan sistem SPHINX, BBN dengan sistem BYBLOS, Lincoln Lab, SRI, MIT, dan AT&T

Bell Labs.

2.3.2

Speech to Text

Speech

Text merupakan

aplikasi

yang

dikembangkan

dari

pengenalan

ucapan,

sehingga

bila

kita

membicarakan

aplikasi

speech

text tidak

mungkin

terlepas

dari

pengenalan ucapan

itu

sendiri. Pengenalan

ucapan

atau

lebih tepatnya

disebut

Automatic

Speech

Recognition

(ASR)

telah

dikembangkan

selama

lebih

dari

lima

dekade.

Berbagai

percobaan telah dilakukan sejak timbulnya ide untuk menciptakan mesin yang dapat mengerti

ucapan

manusia dan studi

terhadap acoustic-phonetics

sejak awal

1950-an. Tetapi tingkat

kerumitan

pengucapan bahasa

pada

tiap

manusia

yang

berbeda

membuat

percobaan-

percobaan tersebut memiliki tingkat kesalahan yang cukup tinggi.

Salah

satu

aspek

tersulit

dalam

melakukan

penelitian

pengenalan

ucapan

dengan

mesin adalah hubungannya dengan cabang-cabang ilmu alam dan kecenderungan para

peneliti

menerapkan

pendekatan

monolitis

untuk

masalah

perseorangan .

Berikut

adalah

beberapa cabang ilmu yang telah digunakan pada satu atau lebih masalah pengenalan ucapan

(Rabiner dan Juang, 1993, p2) :

Pemrosesan sinyal, proses

mengambil informasi yang dibutuhkan dari sinyal ucapan

secara efisien dan tepat. Termasuk dalam pemprosesan sinyal adalah analisis spektral

yang

digunakan

untuk

menggambarkan properti sinyal

ucapan

yang

berubah-ubah

terhadap waktu.

Fisik

(akustik),

ilmu

yang

mempelajari

hubungan antara bentuk fisik

sinyal ucapan

dengan

mekanisme fisiologis (mekanisme bidang suara manusia) dalam

menghasilkan suara dan bagaimana suara ucapan ditangkap (mekanisme pendengaran

manusia).

Pattern

recognition,

sebuah algoritma

yang digunakan

untuk

mengelompokkan data

untuk

menghasilkan

satu

atau

lebih

pola

prototype dari

data

yang

ada,

dan

untuk

membandingkan dua buah pola dengan dasar pengukuran yang sama.

Teori informasi dan komunikasi,

prosedur untuk memperkirakan

parameter dari

model

statistik. Metode

untuk

mendeteksi keberadaan sebagian pola sinyal

ucapan.

kumpulan algoritma coding dan

decoding

modern (termasuk pemograman dinamis,

algoritma

stack, dan

Viterbi

decoding)

untuk

mencari

kata

yang paling

tepat

pada

data yang besar tapi terbatas melalui jalur yang terbaik.

Linguistik, hubungan antara suara (phonology), kata dalam bahasa (sintax), arti dari

kata ucapan(semantic), dan perasaan yang timbul dari arti(pragmatic).

Fisiologi, memahami sistem saraf utama manusia dalam menghasilkan dan menerima

suara ucapan.

Ilmu

komputer,

mempelajari

algoritma

yang

efisien

untuk

implementasi,

baik

itu

perangkat lunak, perangkat keras, dan berbagai

metode yang akan digunakan dalam

sistem pengenalan ucapan.

Fisikologi, ilmu yang mempelajari faktor yang memungkinkan

manusia

menggunakan teknologi dalam

kehidupannya.

Keberhasilan sistem pengenalan ucapan memerlukan pengetahuan dan keahlian pada

banyak

bidang

ilmu.

Pada

tahun

1980-an,

DARPA

berhasil

membuat sistem pengenalan

ucapan

kontinu

(continuous-speech-recognition

systems) dengan

kosa

kata

yang

besar,

memiliki ketepatan

hingga seribu kata. Dengan adanya sistem pengenalan ucapan kontinu,

mesin dapat

mengenali

ucapan

manusia

secara

lebih

alami, tanpa

harus

mengucapkan kata

demi kata secara terpotong-potong. Sistem ini juga yang akhirnya melahirkan aplikasi speech

to text. Dengan speech

to text komputer diharapkan dapat langsung

mencatat setiap ucapan

manusia yang dikenalinya secara otomatis.

Speech to text adalah sebuah aplikasi berbasis komputer yang dapat mengenali ucapan

manusia dan

memberikan respon balik berupa teks. Speech to text memiliki cara kerja

yang

berlawan dengan text to speech. Text

to speech mengadopsi cara kerja manusia menghasilkan

suara sedangkan speech to text mengadopsi cara kerja persepsi pendengar.

2.3.3 Cara Kerja Speech to Text

Pada dasarnya cara kerja dari speech to text sama dengan cara kerja sistem

pengenalan ucapan ( lihat gambar 2.4 ).

Gambar 2.4 Proses

Pengenalan Suara

Pertama–tama suara

yang dihasilkan oleh

manusia akan

ditangkap oleh

microphone

untuk kemudian diubah

menjadi sinyal

digital.

Jika

memungkinkan suara

pengganggu

dan

suara utama dipisahkan dan diubah menjadi bentuk yang lebih sederhana. Pada tahap feature

extraction, prosesor sinyal mengubah sinyal digital yang didapat dengan transformasi fourier,

menghitung tingkat energi

yang

ada

dalam berbagai

frekuensi untuk

menghasilkan bagian-

bagian yang disebut frames.

Teknik

sampling

ini

menghasilkan sederet

vector

yang

digunakan

untuk

proses

pengenalan. Dengan adanya teknik ini, memori yang dibutuhkan untuk menyimpan data yang

akan

diproses

menjadi

lebih

kecil.

Hal

ini

akan

menghemat

memori

yang

digunakan.

Algoritma untuk menghasilkan sederet vector ini lebih dikenal sebagai vector quantization.

Selanjutnya pada

tahap probability

estimation dan

decoding,

vektor

yang

dihasilkan akan

dibandingkan dengan data yang ada dan mengarahkannya ke data yang terdekat untuk diubah

menjadi

serangkaian

simbol

tertentu

sesuai

dengan

language

model yang

ada.

Tahap

berikutnya

adalah

pattern recognition.

Pada

tahap

ini

sinyal

yang

sudah

diproses

dibandingkan dengan model akustik yang sudah ada. Model akustik yang ada disimpan dalam

bentuk serangkaian frames.

Jadi ketika sistem pengenalan ucapan menerima masukan baru,

sistem

akan mengolahnya dan membandingkannya dengan data yang ada

untuk

menemukan

kata yang

terdekat. Metode

ini terbatas

pada

sedikitnya jumlah

kata

yang

dapat digunakan

dan pengucapan yang terpotong-potong. Secara umum terdapat beberapa metode pendekatan

untuk pengenalan ucapan (Rabiner dan Juang, 1993, p42), antara lain :

Pendekatan Akustik Fonetik

Pendekatan Statistical Pattern-Recognition

Pendekatan Intelegensia Semu

2.3.3.1 Pendekatan Akustik

Fonetik

Blok diagram sistem pengenalan

ucapan

akustik

fonetik ditunjukkan oleh gambar

2.5.

langkah

pertama

adalah

speech

analysis

system atau

sistem

analisis

ucapan

yang

menghasilkan representasi spektral dari sinyal ucapan. Di dalam sistem ini terdapat beberapa

metode yang dapat dipakai yaitu bank of filter dan LPC. Langkah berikutnya adalah feature-

detection.

Ide

dasarnya

adalah

mengubah besaran

spektral

menjadi

serangkaian

fitur

yang

menggambarkan properti akustik secara luas dari unit fonetik yang berbeda. Fitur-fitur yang

termasuk

dalamnya antara

lain:

nasality

(ada

tidaknya

resonansi nasal),

frication

(ada

tidaknya penekanan dalam ucapan), Formants

locations

(frekuensi dari tiga resonansi

SPEECH

ANALYSIS

SYSTEM

ILTER BANK

pertama),

Voiced/Unvoiced

classification

(penekanan

secara

periodik

maupun

tidak

periodik),

high/low-energi ratio.

FEATURE

DETECTOR 1

s(n)

SEGMENTATION

AND

LABELING

CONTROL

ENERGY

RECOGNIZED

SPEECH

FEATURE

DETECTOR Q

FORMANTS

PITCH

VOICED/

UNVOICED

ENERGY

NASALITY

FRICATION

PHONEME LATTICE

SEGMENT LATTICE

PROBABILISTIC

LABELING

DECISION TREES

PARSING STRATEGIES

Gambar 2.5 Blok Diagram

Sistem Pengenalan

Ucapan

Akustik

Fonetik

(Rabiner dan

Juang, 1993, p45)

Langkah ketiga adalah fase segmentation and labeling. Pada fase ini sistem mencoba

menemukan daerah

yang

stabil,

yaitu

pada

daerah

yang

hanya

terjadi

sedikit

perubahan

maupun

pergeseran

fitur. Kemudian,

memberikan label pada area

yang tersegmen

menurut

seberapa cocok fitur di dalam area tersebut dengan unit fonetik individual. Keluaran terakhir

adalah kata-kata yang memiliki pasangan paling cocok pada referensi kata.

Akan

tetapi

banyak

masalah

yang

terkait

dengan

pendekatan ini,

sehingga

menyebabkan kurang suksesnya praktik sistem pengenalan ucapan, diantaranya :

Metodenya

memerlukan pengetahuan

yang

luas

tentang

properti

akustik

dari

unit

fonetik.

Pemilihan fitur didasarkan pada pemikiran yang tidak terencana. Pada banyak sistem,

pemilihan fitur didasarkan pada intuisi serta tidak optimal dalam logika berpikir.

Desain pengklasifikasi suara

juga tidak optimal. Metode yang tidak terencana

biasanya digunakan untuk membangun suatu pohon keputusan binary. Pada akhirnya

CART

(Classification

And Regression

Tree)

digunakan

untuk

membuat

pohon

keputusan menjadi lebih baik.

Tidak ada cara yang ideal untuk memberikan

label pada pelatihan

ucapan

yang

diterima dan disetujui oleh pakar linguistik secara luas.

2.3.3.2 Pendekatan Statistical Pattern-Recognition

Dalam pendekatan ini terdapat 4 langkah dasar yaitu :

Feature Measurement : adalah hasil dari beberapa tipe teknik analisis spektral seperti

LPC, Filter-Bank Analyzer.

Pattern Training : test pattern

untuk menghasilkan bentuk atau pola yang memiliki

fitur-fitur (keistimewaan) dari suatu kelas, kemudian hasilnya akan dijadikan

reference pattern (berupa template / model statistik).

Pattern Classification : membandingkan masing-masing test pattern

yang

dimasukkan, dengan reference pattern

yang ada di dalam kelas-kelas atau basis data.

Decision Logic : hasil perbandingan dari pattern classification, digunakan untuk

menentukan reference pattern

yang paling mendekati atau mirip dengan test pattern

yang dimasukkan.

Salah satu metode yang sudah digunakan secara luas untuk aplikasi continuous speech

recognition

adalah Hidden Markov Model (HMM). HMM

merupakan model statistik yang

menggambarkan distribusi

kemungkinan

transisi

dari

model

bahasa

yang

ada.

HMM

mengandung suatu proses

stokastik

tambahan dengan proses

stokastik tersembunyi sebagai

dasarnya, tetapi proses tambahan ini dapat dipelajari melalui rangkaian proses stokastik lain,

proses ini menghasilkan urutan-urutan pengamatan.

Probabilistic

Pattern

Recognition Model yang digunakan di dalam sistem pengenalan

suara

untuk membantu mendeterminasi kata-kata mana saja

yang dipresentasikan oleh suara

yang

ditangkap

oleh

komputer.

HMM merupakan

algoritma

dasar

yang

digunakan

pada

sistem pengenalan suara (Atwell, 1999).

Elemen-elemen yang terdapat dalam HMM sebagai berikut :

N, banyaknya state dalam satu model

M, banyaknya simbol pengamatan dalam satu state

Distribusi kemungkinan perpindahan state,

dengan :

P[ q

t+1

j | q

i ],

1 = i,j = N

Distribusi kemungkinan observasi simbol, B = {b

(k)} dengan :

(k) = P[ ot

vk | qt

j ],

1 = k = M

Distribusi initial state, p = { pi } dengan :

P[ q¹ = i ],

1 = i = N

Model

statical pattern-recognition

tentu

saja

memiliki

kelebihan

dan

kelemahan.

Beberapa kelebihan dan kelemahan model statical pattern-recognition, sebagai berikut:

Kinerja sistem sensitif terhadap sejumlah data latihan yang ada untuk membuat pola

referensi kelas suara. Biasanya semakin sering berlatih, kinerja sistem semakin tinggi.

Pola-pola

referensi

sensitif

terhadap

lingkungan

pembicara

dan

karakteristik

media

transmisi

yang

digunakan

dalam

menghasilkan ucapan.

Hal

ini

menyebabkan

karakteristik spektral ucapan dipengaruhi oleh transmisi dan noise.

Tidak

ada

pengetahuan

ucapan

khusus yang

digunakan

secara

eksplisit

dalam

sistem,

sehingga

metode

ini

kurang

sensitif

untuk

memilih

kosa-kata, penugasan

sintak, dan penugasan semantik.

Perhitungan yang digunakan pada pelatihan pola dan klasifikasi pola umumnya cocok

terhadap sejumlah pola yang telah dilatih maupun dikenali.

Karena sistem kurang peka terhadap kelas suara, sehingga serangkaian teknik

pengembangan

untuk

satu

kelas

suara

dapat

langsung

digunakan

pada

kelas

suara

yang lain tanpa mengganti maupun memodifikasi algoritma yang dipakai.

Model pengenalan pola secara relatif menggabungkan batasan sintaks kedalam

struktur

pengenalan

pola,

sehingga

meningkatkan keakuratan

sistem

pengenalan

sekaligus menurunkan proses penghitungan.

2.3.3.3 Pendekatan Intelegensia

Semu

Ide dasarnya adalah

mengumpulkan dan menggabungkan berbagai

macam

informasi

dari berbagai sumber pengetahuan kemudian digunakan

untuk

menyelesaikan masalah

yang

ada.

Dalam hal ini terdapat beberapa sumber informasi :

Pengetahuan akustik : keterangan dari mana suara berasal untuk menentukan spectral

measurement serta ada tidaknya fitur-fitur.

Pengetahuan leksikal : merupakan kombinasi dari akustik untuk memetakan atau

mengubah dari bentuk suara menjadi bentuk kata menggunakan leksikon.

Pengetahuan sintaksis : merupakan kombinasi dari kata-kata untuk membentuk

kalimat yang benar sesuai aturan penulisan.

Pengetahuan semantik : pemahaman terhadap tugas utama sehingga dapat

menentukan apakah sebuah kalimat sudah tepat dan sesuai aturan bahasa.

Pengetahuan pragmatik : kemampuan menyimpulkan arti dari suatu kata berdasarkan

aturan bahasa suatu daerah yang menggunakan bahasa/kata-kata tersebut.

Ada

beberapa

cara

untuk

menggabungkan sumber

pengetahuan

kedalam

sistem

pengenal

ucapan. Cara

yang

pertama

adalah

dengan

pemrosesan

bottom up,

yaitu

tingkat

proses paling bawah mendahului proses pada tingkat yang lebih tinggi secara berurutan, jadi

cara

ini

akan

memberikan

batasan

yang

bertujuan

untuk

mendapatkan proses

sesedikit

mungkin. Top down merupakan pemroses kedua yang dapat dipakai. Pada proses

ini

model

bahasa

menghasilkan hipotesis

kata

yang

sesuai

dengan

sinyal

ucapan,

selain

itu

akan

terbentuk kalimat yang secara sintak dan semantik benar pada nilai kata yang dicocokkan.

Pendekatan blackboard

merupakan cara

lain

yang

dapat

digunakan. Pada

teknik

ini

semua sumber pengetahuan dianggap berdiri sendiri. Hipotesa dan tes paradigma digunakan

sebagai media komunikasi dasar diantara sumber-sumber pengetahuan.

Berbagai

macam

sumber

pengetahuan perlu

dimasukkan

kedalam

pendekatan

intelegensia semu.

Dua

konsep

kunci

dalam

intelegensia semu

adalah

mempelajari

pengetahuan yang ada dan beradaptasi. Salah satu jalan untuk mengimplementasikan konsep

ini adalah dengan menggunakan pendekatan neural network.

Konsep

pemahaman

ucapan

berdasarkan pada

persepsi

manusia.

Sinyal

masukan

pertama kali

dianalisis oleh

suatu

model

yang

disebut

“ear

model”,

model

ini

memberikan

informasi

spektral

dan

menyimpannya ke dalam

penyimpanan

informasi sensor.

Informasi

sensor

yang

lain

juga

tersedia

dalam

penyimpanan informasi

sensor,

informasi

ini

digunakan

untuk

menghasilkan beberapa

tingkat

fitur

dari

deskripsi

ucapan. Selain

media

penyimpanan informasi

sensor

pada

konsep

ini

terdapat

pula

long-term

dan

short-term

memory yang

tersedia untuk berbagai macam pendeteksi fitur.

2.3.4

Masalah Fundamental pada Sistem Pengenalan

Ucapan

Seperti

halnya

masalah

pada

pengenalan

pola

lainnya,

masalah

fundamental pada

pengenalan ucapan adalah variabilitas dari pola ucapan manusia. Kesalahan pada pengenalan

ucapan

dikarenakan terjadinya

tumpang

tindih

unit

ucapan

yang

berbeda

pada

realisasi

distribusi akustik (Anonim,2001). Secara umum variabilitas ucapan dapat dijabarkan sebagai

berikut (Anonim, 2001) :

Variabilitas durasi. Dua kali pengucapan sebuah kata tidak mungkin memiliki durasi

yang sama, walaupun diucapkan oleh orang yang sama.

Variabilitas spektral. Dua kali pengucapan sebuah kata tidak mungkin memiliki

lintasan waktu spektral yang sama.

Variabilitas pembicara. Suara

ucapan dipengaruhi oleh

karakteristik anatomi, jenis

kelamin, kesehatan, dan emosi dari si pembicara.

Logat.

Logat

pembicara

dapat

memberikan pengaruh yang cukup

besar

pada

karakteristik suara ucapan dan pada kinerja sistem pengenalan suara.

Variabilitas kontekstual. Karakteristik

unit

ucapan

dipengaruhi oleh

hubungan

unit

kata-kata sebelum dan sesudahnya.

Co-articulation. Hampir sama dengan

variabelitas kontekstual, hanya saja co-

articulation

juga dipengaruhi oleh kecepatan berbicara, logat, dan faktor psikologis.

Noise.

Pengenalan

ucapan

dipengaruhi

oleh

noise,

echo,

distorsi

pada

saluran

dan

keadaan lingkungan.

2.4

Sinyal

Sinyal didefinisikan sebagai :

besaran

fisik

yang

berubah-ubah

menurut

waktu, ruang

atau

variabel

bebas

atau

variabel-variabel lainnya.

Secara

matematis,

kita

mendeskripsikan sinyal

sebagai

fungsi dari satu atau lebih variabel bebas (Proakis dan Manolakis, 1997, p2)

informasi,

pesan

(berita),

atau

efek

yang

perlu

dibawa

lewat

sistem

komunikasi;

Gelombang isyarat, perwujudan fisik suatu berita (IEEE); Kejadian (event) atau gejala

(fenomena) yang membawa data dari satu titik ke titik lainnya (Wasito, 1987)

2.4.1

Klasifikasi

Sinyal

Menurut Proakis dan Manolakis (1997) sinyal dibedakan menjadi 4 golongan yaitu :

Sinyal-sinyal Multikanal dan Multidimensi

Sinyal

multikanal

adalah

sinyal yang

nilai

fungsinya

dapat

berupa

vektor

sinyal

dengan sinyal-sinyal elektrik sensor ke-k sebagai fungsi

waktu. k dapat bernilai dari

satu sampai tak terhingga.

Sinyal

multidimensi

adalah

sinyal

yang merupakan

suatu

fungsi dari m variabel

bebas.

Sinyal waktu-kontinu versus sinyal waktu-diskrit

Sinyal

waktu-kontinu (sinyal analog) didefinisikan sebagai

sinyal

yang

untuk

setiap

nilai

waktu

diambil

pada

nilai-nilai

dalam

selang

kontinu

(a,

b) dengan

dapat

menjadi -8 dan b dapat menjadi 8.

Sinyal waktu-diskrit adalah sinyal yang diambil hanya pada nilai-nilai waktu khusus

tertentu.

Sinyal

waktu

diskrit

dapat

digambarkan secara

matematis

dengan

suatu

barisan bilangan real atau bilangan kompleks.

Sinyal bernilai kontinu versus sinyal bernilai diskrit

Jika

suatu

sinyal

diambil

dengan

seluruh

nilai

yang

mungkin baik

pada

interval

terbatas atau tidak terbatas, hal ini dikatakan sinyal bernilai kontinu.

Jika sinyal diambil pada nilai-nilai dari suatu himpunan terbatas nilai yang mungkin,

hal ini dikatakan sinyal bernilai diskrit.

Sinyal

waktu diskrit

yang

mempunyai himpunan

nilai-nilai diskrit dinamakan sinyal

digital. Agar suatu sinyal dapat diproses secara digital, sinyal

itu

harus didiskritkan

waktunya dan nilainya harus diskrit.

Sinyal deterministik versus sinyal acak

Setiap

sinyal

yang

dapat

dideskripsikan secara

unik

dengan

suatu

pernyataan

matematis eksplisit, suatu tabel data, atau suatu aturan yang didefinisikan dengan baik

dinamakan deterministik. Istilah

ini digunakan

untuk menegaskan fakta bahwa

seluruh nilai

sinyal sebelum, sekarang, dan

yang akan datang diketahui secara pasti,

tanpa adanya ketidakpastian.

Namun

dalam

banyak

aplikasi

praktis,

terdapat

sinyal-sinyal yang

tidak

dapat

dideskripsikan terhadap

setiap

alasan

derajat

keakuratan

dengan

formula-formula

matematis eksplisit,

atau

suatu

deskripsi

seperti

itu

terlalu

sukar

untuk

setiap

penggunaan praktis.

Kekurangan hubungan

seperti

itu

menyatakan bahwa

sinyal-

sinyal

seperti

itu

dibatasi

waktu

dengan

cara

yang

tidak

dapat

diramalkan. Kita

mengacu sinyal-sinyal ini sebagai acak

2.4.2

Pemrosesan Sinyal pada

Sistem Pengenalan Ucapan

Pemrosesan

sinyal

merupakan bagian

terpenting

dari

sistem

pengenalan

suara.

Berbagai parameter dapat

digunakan

untuk

menggambarkan

sinyal

suara

seperti

short

time

energy, zero crossing rates,

level crossing rates, dan berbagai parameter lainnya. Akan tetapi

short time spectral envelope dirasakan sebagai parameter yang paling cocok bagi sinyal suara

(Proakis

dan Dimitris, 1997).

Pada spektral analisis

terdapat dua

metode

utama

yaitu filter-

bank spectrum analysis model dan linear predictive coding (LPC ) spectral analysis model.

2.5

Filter

merupakan suatu

fungsi

yang

secara

selektif

mengubah bentuk

gelombang,

karakteristik

amplitudo-frekuensi dan

frasa

frekuensi

sebuah

sinyal

menjadi

bentuk

yang

diinginkan. Filter mempunyai tujuan untuk menekan adanya derau dan meningkatkan kualitas

sinyal, mengekstraksi informasi yang dibutuhkan dari sinyal.

Filter

digital

merupakan

algoritma

matematis, bertujuan

untuk

memroses

sinyal,

misalnya sinyal analog

yang didigitalisasi kemudian menyimpan hasilnya ke dalam

memori

komputer.

Ada dua

macam

filter digital

yang

umum dikenal

yaitu, FIR (Finite

Impulse

Response) dan IIR (Infinite Impulse Response).

s(n)

h(k ) x(n

k )

s(n)

h(k ) x(n

k )

persamaan

pertama

adalah

persamaan

untuk

FIR,

sedangkan

filter

IIR

ditunjukkan pada

persamaan kedua

(Nugroho,

2001,

p4).

Salah

satu

teknik

didalam

Filter

IIR

yang

dapat

mendeteksi perubahan dalam sinyal suara adalah parametrik.

Parametrik

bekerja

dengan

cara

menemukan parameter

untuk

model

matematika,

menggambarkan sinyal,

sistem,

atau

proses.

Teknik

ini

memanfaatkan informasi

yang

diketahui tentang sistem

untuk

membuat

modelnya. (Matlab, 2002).

Salah satu teknik

yang

dipakai dalam parametrik modeling adalah LPC.

LPC

merupakan teknik

yang telah umum dipakai dalam sistem pengenalan ucapan.

LPC

memiliki beberapa keunggulan dibandingkan dengan

metode

lain, yang

menyebabkan

LPC banyak digunakan dalam sistem pengenalan ucapan, diantaranya, sebagai berikut :

LPC menyediakan pemodelan yang baik dari sinyal ucapan.

Ketika LPC ditempatkan pada analisis sinyal ucapan, LPC akan mengarah ke sumber

yang

masuk

akal,

hasilnya adalah

representasi

karakteristik vocal

tract

yang

sesuai

dengan kebutuhan.

LPC

adalah model

yang

dapat

menentukan area

ucapan dengan

menganalisis sinyal

tersebut.

Model

LPC bekerja

sangat baik pada aplikasi pengenalan

ucapan. Pengalaman telah

menunjukkan

bahwa

kinerja

sistem

pengenalan

ucapan

yang menggunakan

LPC,

Bandpass filter

hasilnya lebih baik daripada sistem pengenal yang menggunakan teknik lain, misalnya

teknik filter-bank (Rabiner dan Juang, 1993, p98).

2.5.1

Deret

“Bank

of Filter”

Pada

metode

ini,

sinyal

suara

dianalogikan

sebagai sinyal

digital, s(n),

dilewatkan

pada bandpass

filter Q

yang

memilah

frekuensi sinyal

yang dilewatkan (lihat

gambar 2.6

Misalnya 100-3000 Hz untuk sinyal telepon dan 100-8000 Hz untuk sinyal pemancar. Setiap

filter

dapat

melakukan penyaringan

sendiri dan

umumnya saling melengkapi. Keluaran dari

bandpass

filter ke i adalah X

i?i

), dimana ?

adalah frekuensi yang sudah dinormalisasikan

dengan 2pf

/ F

dan F

adalah frekuensi percobaan.

Bandpass filter

i?1

)

speech

s(n)

i?Q

)

Gambar 2.6 Model

Analisis Bank Filter

(Rabiner dan

Juang, 1993, p72)

2.5.2

Linear Predictive

Coding

(LPC)

Metode

ini

membagi sinyal

suara

menjadi

bagian-bagian kecil

yang disebut

speech

frames

untuk

dianalisis (lihat

gambar

2.7).

LPC

menghasilkan

koefisien

bagi

filter

suara.

Pada proses blok into frame, N menunjukkan ukuran dari

frame sedangkan M menunjukkan

jarak antar frame yang berdekatan.

Speech

s(n)

Block into

frames

LPC Spectral

Analysis

LPC Parameter

Conversion

Gambar 2.7 model analisis

LPC (Rabiner dan

Juang, 1993, p72)

2.5.2.1 Model

LPC

Ide dasar dalam model LPC adalah contoh ucapan dalam waktu n dinyatakan dengan

persamaan :

s(n)

s(n

dimana koefisien

2,…,

dianggap konstan. Bila ekspresi pemacu G

u(n) dimasukkan

kedalam persamaan di atas akan didapatkan persamaan :

s(n)

s(n

Gu(n)

dimana u(n) adalah ekspresi pemacu yang dinormalisasi,

sedangkan G didapatkan dari

pemacu

tersebut.

Dengan

mengekspresikan persamaan

tersebut

dalam

domain

maka

akan didapatkan relasi :

(

S z)

( z)

GU ( z)

mengarah ke fungsi transfer :

H z)

( z)

(

GU ( z)

A( z)

Interpretasi dari persamaan di atas dapat dilihat pada gambar 2.8.

A(z)

Gambar 2.8 Model

Linear Prediction

(Rabiner dan

Juang, 1993, p100)

Dimana

u(n),

diskalakan oleh

dan

berperan

sebagai

input

untuk semua kutub

sistem,

(

A( z)

, untuk menghasilkan sinyal ucapan s(n).

2.5.2.2 Persamaan

Analisis

LPC

Berdasarkan gambar 2.8, hubungan antara s(n) dan u(n) adalah :

s(n)

s(n

k )

Gu(n)

Kombinasi linier dari sample ucapan yang terakhir diandaikan sebagai :

s(n)

s(n

k )

2.5.2.3 LPC

Processor

LPC processor memiliki beberapa langkah dasar pemrosesan sebagai berikut (gambar 2.9) :

(n)

preemphasis

Frame Blocking

Windowing

C(m)

LPC

Parameter

Conversion

LPC Analysis

Autocorrelation

Analysis

Gambar 2.9 LPC

Processor

Preemphasis

merupakan tahap pertama dari LPC

yang memfilter

sinyal suara

masukan dari mikrofon. Pada tahap ini, sinyal dengan frekuensi tinggi dilemahkan sehingga

sinyal lebih tahan terhadap efek presisi atau pergeseran. Sistem digital yang digunakan oleh

fungsi

preemphasis adalah

fixed atau slowly adaptive.

Sistem

yang

paling

umum dipakai

adalah

fixed

first-order,

(

Dengan

a = 0.95

merupakan

nilai

yang paling

umum dipakai (Rabiner dan Juang, 1993, p113 )

Frame Blocking

Sinyal ucapan hasil preemphasis,

s(n)

, kemudian diblok kedalam frame-frame

sebanyak N sample, frame-frame yang saling berhubungan dipisahkan oleh M sample.

Windowing

Langkah

selanjutnya adalah

pemberian window pada

individual

frame.

Windowing

memiliki tujuan

untuk

meminimalisasi diskontinuitas sinyal pada

awal

dan

akhir

masing-

masing frame. Jika window didefinisikan sebagai w(n), dengan 0

1 hasil akhir dari

, hasil akhir dari

windowing adalah

(n)

x (n)w(n) , dengan

1 Hamming window, merupakan

. Hamming window, merupakan

teknik

windowing yang paling

umum

dipakai pada

sistem

pengenalan

ucapan.

Hamming

window dirumuskan :

w(n)

0.54

0.46 cos

Analisis

otokorelasi

Masing-masing frame dari

sinyal yang

telah di-window,

dilakukan otokorelasi.

dengan

m = 0,1,…,p. Nilai p

adalah

nilai

tertinggi pada

otokorelasi.

Nilai

akan digunakan

pada

langkah berikutnya

yaitu

analisis

LPC.

Zeroth

otokorelasi,

merupakan

energi

dari frame ke-l.

Energi

ini merupakan

parameter

penting pada sistem pengenalan ucapan.

Analisis

LPC

Analisis LPC merupakan proses yang mengubah masing-masing

frame dari

otokorelasi p+1

kedalam

bentuk

set

parameter

LPC,

dimana

set

tersebut

mungkin

saja

koefisien LPC, koefisien refleksi, kofisien log area ratio, koefisien cepstral, atau transformasi

bentuk

set

yang

diinginkan. Metode

umum

yang

biasa

digunakan untuk

mengubah

koefisien hasil otokorelasi menjadi perameter LPC adalah Metode Levinson-Durbin.

Pengubahan Parameter

LPC

Menjadi Koefisien Cepstral

Koefisien cepstral LPC, c(m), dapat diturunkan secara langsung dari parameter LPC.

Koefisien cepstral

merupakan koefisien

hasil representasi transformasi

fourier terhadap

log

magnitude spectrum.

2.6

Perbandingan Sinyal

Suara

Untuk

suatu sistem pengenalan suara dapat digunakan

metode

template,

yaitu suara

yang

dimasukkan

kemudian

dibandingkan dengan

suara

referensi

(template)

yang

sudah

tersedia di dalam basisdata. Untuk perbandingan terdapat banyak cara, sehingga

perbandingan bentuk

suara

merupakan bagian penting

dari

suatu sistem

pengenalan

suara,

agar

didapatkan sinyal

suara

yang

baik

(jernih)

serta

dapat

mendukung

keakuratan hasil

perbandingan,

sinyal suara

yang dimasukkan

terlebih dahulu

harus

dipisahkan dari

sinyal-

sinyal lain yang dapat mengganggu.

Pendeteksian

suara

bertujuan

agar

sinyal

suara

yang

dimasukkan

dapat

dipisahkan

dari sinyal-sinyal lain

yang tidak berguna.

Untuk memperoleh kualitas suara

yang baik dan

jernih,

sehingga dapat digunakan untuk

membentuk speech pattern

atau sering disebut juga

template.

Menurut

Rabiner

dan

Juang,

dalam

pendeteksian

suara

ada

beberapa

metode

yang

dapat

digunakan,

metode-metode ini

digolongkan

menjadi tiga

macam pendekatan, sebagai

berikut :

The

Explicit Approach

pendekatan

ini

didasarkan

atas

premis bahwa pendeteksian

suara

dapat

dilakukan

tanpa

tergantung kepada operasi-operasi

pencocokan bentuk

lain pada langkah berikutnya dalam proses pengenalan suara.

The

Implicit

Approach

pendekatan

ini

mempertimbangkan

masalah

pendeteksian

suara

secara

simultan dengan pattern-matching

dan

proses

recognition-decision,

dianggap bahwa

dalam

sinyal

suara

yang

dimasukkan

selalu

terdapat

sinyal-sinyal

lain.

The

Hybrid

Approach

pendekatan

ini

memiliki

perhitungan

yang

sama dengan

metode explicit namun tingkat keakuratannya sebanding terhadap metode implicit.