Home Start Back Next End
  
47
algoritma
yang
cukup
rumit
seperti
HMM
(Hidden
Markov
Model)
dan
juga
Neural
Networks.
Neural  networks telah  diimplementasikan dalam speech synthesis selama 10
tahun belakangan ini dan hasilnya cukup menjanjikan. Namun potensi neural
networks
masih belum diteliti lebih dalam.
2.5.3
Tahapan-tahapan Text-to-speech
Untuk mendapatkan ucapan yang lebih alami, ucapan yang dihasilkan harus
memiliki
intonasi
(prosodi). Menurut Arry Akhmad Arman (Konversi dari Teks ke
Ucapan, p2), secara kuantisasi, prosodi adalah perubahan pitch (frekuensi dasar) selama
pengucapan kalimat dilakukan atau pitch sebagai fungsi waktu.
Pada prakteknya,
informasi
pembentuk
prosodi
berupa
data-data
pitch
serta durasi pengucapannya untuk
setiap fonem yang dibangkitkan.
Konverter
fonem ke
ucapan
berfungsi
untuk
membangkitkan
sinyal
ucapan
berdasarkan
kode-kode
fonem
yang
dihasilkan
dari
proses
sebelumnya.
Sub-sistem
ini
harus
memiliki
pustaka
setiap
unit
ucapan
dari
suatu
bahasa.
Pada
sistem yang
menggunakan
teknik diphone concatenation, sistem harus didukung oleh suatu diphone
database
yang
berisi
rekaman
segmen-segmen ucapan
yang
berupa
diphone.
Ucapan
dalam suatu
bahasa
dibentuk
dari
satu
set
bunyi
yang
mungkin
berbeda
untuk
setiap
bahasa,
oleh
karena
itu
setiap
bahasa
harus
dilengkapi
dengan
diphone
database
yang
berbeda.
Word to PDF Converter | Word to HTML Converter