![]() 26
sejumlah arsitektur
J
(., r
i
)
, di mana r
i
adalah parameter vektor yang terpilih
untuk
µi
membuat
J
(., r
i
)
mendekati
J
.
Nilai
kebijakan
yang
berikutnya
dihasilkan
oleh
Persamaan:
u
i+1
(x) = min
J
(
f
2
(
x, u), r
i
)
.............. (2.26)
Ada banyak
metode yang dipakai
untuk pendekatan J
µi
pada kebijakan
iterasi ke-
i.
Metode
yang
dipakai
di
dalam skripsi
ini
adalah
on-line
temporal
difference
method
(metode
perbedaan
sementara
secara on-line),
di
mana
pada
setiap iterasi,
metode
ini
secara efektif menghitung parameter vektor.
2.5.3
Pengertian Online Temporal Difference Method
Algoritma perbedaan sementara (temporal-difference) sudah diaplikasikan
dengan sukses untuk beberapa aplikasi skala besar di dalam neuro-dynamic
programming.
Vektor
r
0
bernilai
sama
dengan
vektor
x
0
,
begitu
pula
vektor
r
t
bernilai
sama
dengan
vektor
x
t
.
Proses
neuro-dynamic
programming
yang
mengunakan
online
temporal difference method adalah sebagai berikut (Roy et al., 1997).
1. Keadaan sebelum keputusan x
o
adalah sebagai simulator, dan kontrol u
0
dihitung
dari
u
0
=
min
J
(
f
2
(
x
0
,
u), r
0
)
.............. (2.27)
2. Jalankan simulator
menggunakan kontrol
u
0
untuk
mendapatkan keadaan setelah
keputusan yang pertama
y
0
=
f
2
(
x
0
,
u)
.............. (2.28)
|