Home Start Back Next End
  
26
sejumlah  arsitektur
J
(., r
i
)
,  di  mana  r
i   
adalah  parameter  vektor  yang  terpilih
untuk
µi
membuat
J
(., r
i
)
mendekati 
J
Nilai 
kebijakan 
yang 
berikutnya 
dihasilkan 
oleh
Persamaan:
u
i+1
(x) = min
J
(
f
2
(
x, u), r
i
)
.............. (2.26)
Ada banyak
metode yang dipakai
untuk pendekatan J
µi
pada kebijakan
iterasi ke-
i.
Metode
yang
dipakai
di
dalam skripsi
ini
adalah
on-line
temporal
difference
method
(metode
perbedaan
sementara
secara on-line),
di
mana
pada
setiap iterasi,
metode
ini
secara efektif menghitung parameter vektor.
2.5.3
Pengertian Online Temporal Difference Method
Algoritma   perbedaan   sementara   (temporal-difference)   sudah   diaplikasikan
dengan sukses untuk beberapa aplikasi skala besar di dalam neuro-dynamic
programming.
Vektor
r
0
bernilai
sama
dengan
vektor
x
0
,
begitu
pula
vektor
r
t
bernilai
sama
dengan 
vektor 
x
t
Proses 
neuro-dynamic 
programming 
yang 
mengunakan 
online
temporal difference method adalah sebagai berikut (Roy et al., 1997).
1.   Keadaan sebelum keputusan x
o
adalah sebagai simulator, dan kontrol u
0
dihitung
dari
u
=
min
J
(
f
2
(
x
0
,
u), r
0
)
.............. (2.27)
2.   Jalankan simulator
menggunakan kontrol
u
0
untuk
mendapatkan keadaan setelah
keputusan yang pertama
y
=
f
2
(
x
0
,
u)
.............. (2.28)
Word to PDF Converter | Word to HTML Converter