2010100609STIFBab2 - page 21 of 37

Page 21 of 37

Home Start Back Next End

sejumlah arsitektur

(., r

)

, di mana r

adalah parameter vektor yang terpilih

untuk

µi

membuat

(., r

)

mendekati

Nilai

kebijakan

yang

berikutnya

dihasilkan

oleh

Persamaan:

i+1

(x) = min

(

x, u), r

)

.............. (2.26)

Ada banyak

metode yang dipakai

untuk pendekatan J

µi

pada kebijakan

iterasi ke-

Metode

yang

dipakai

dalam skripsi

ini

adalah

on-line

temporal

difference

method

(metode

perbedaan

sementara

secara on-line),

mana

pada

setiap iterasi,

metode

ini

secara efektif menghitung parameter vektor.

2.5.3

Pengertian Online Temporal Difference Method

Algoritma perbedaan sementara (temporal-difference) sudah diaplikasikan

dengan sukses untuk beberapa aplikasi skala besar di dalam neuro-dynamic

programming.

Vektor

bernilai

sama

dengan

vektor

begitu

pula

vektor

bernilai

sama

dengan

vektor

Proses

neuro-dynamic

programming

yang

mengunakan

online

temporal difference method adalah sebagai berikut (Roy et al., 1997).

1. Keadaan sebelum keputusan x

adalah sebagai simulator, dan kontrol u

dihitung

dari

min

(

u), r

)

.............. (2.27)

2. Jalankan simulator

menggunakan kontrol

untuk

mendapatkan keadaan setelah

keputusan yang pertama

(

.............. (2.28)