2008100386IFBab2 - page 34 of 53

Page 34 of 53

Home Start Back Next End

) = arg max

[r(s, a)

(d (s, a

))

]

di mana:

(s, a)

memberikan state baru hasil dari action a terhadap state s

Berdasarkan persamaan di

atas,

agen

dapat

memperoleh optimal policy

dengan

mempelajari

dengan

kondisi

agen

memiliki pengetahuan

yang

sempurna terhadap

fungsi

immediate

reward

dan

fungsi

trasisi

state

Akan

tetapi,

pada

awalnya

agen

tidak

memiliki pengetahuan apapun tentang

fungsi-fungsi

tersebut, sehingga agen tidak

dapat

memilih

action

yang

optimal.

Oleh

karena

itu,

dibutuhkanlah sebuah

evaluation

function Q, guna mendapatkan evalutation function yang optimal ( V

2.3.5.1 Q-Function

Q-function dinotasikan sebagai

Q(s,a)

dan

nilai

dari

adalah

reward

yang

diterima secara

langsung ketika

agen

mengeksekusi action a

terhadap state

ditambah

nilai (didiskon oleh ?) dari optimal policy setelah action-state tersebut dipilih.

(s, a

) = r

(s, a

)

(d (s, a))

Berdasarkan persamaan di atas,

maka dapat ditulis kembali persamaan

menjadi:

) = arg max Q(s, a

)