2007200064IFBab2 - page 40 of 53

Page 40 of 53

Home Start Back Next End

algoritma

yang

cukup

rumit

seperti

HMM

(Hidden

Markov

Model)

dan

juga

Neural

Networks.

Neural networks telah diimplementasikan dalam speech synthesis selama 10

tahun belakangan ini dan hasilnya cukup menjanjikan. Namun potensi neural

networks

masih belum diteliti lebih dalam.

2.5.3

Tahapan-tahapan Text-to-speech

Untuk mendapatkan ucapan yang lebih alami, ucapan yang dihasilkan harus

memiliki

intonasi

(prosodi). Menurut Arry Akhmad Arman (Konversi dari Teks ke

Ucapan, p2), secara kuantisasi, prosodi adalah perubahan pitch (frekuensi dasar) selama

pengucapan kalimat dilakukan atau pitch sebagai fungsi waktu.

Pada prakteknya,

informasi

pembentuk

prosodi

berupa

data-data

pitch

serta durasi pengucapannya untuk

setiap fonem yang dibangkitkan.

Konverter

fonem ke

ucapan

berfungsi

untuk

membangkitkan

sinyal

ucapan

berdasarkan

kode-kode

fonem

yang

dihasilkan

dari

proses

sebelumnya.

Sub-sistem

ini

harus

memiliki

pustaka

setiap

unit

ucapan

dari

suatu

bahasa.

Pada

sistem yang

menggunakan

teknik diphone concatenation, sistem harus didukung oleh suatu diphone

database

yang

berisi

rekaman

segmen-segmen ucapan

yang

berupa

diphone.

Ucapan

dalam suatu

bahasa

dibentuk

dari

satu

set

bunyi

yang

mungkin

berbeda

untuk

setiap

bahasa,

oleh

karena

itu

setiap

bahasa

harus

dilengkapi

dengan

diphone

database

yang

berbeda.