2008100386IFBab2 - page 35 of 53

Page 35 of 53

Home Start Back Next End

Persamaan

di atas menunjukkan

bahwa agen mempelajari

Q-function

bukan

mempelajari

fungsi

Dengan

mempelajari

Q-function,

agen

dapat

memilih

optimal

action

ketika

agen

tidak

memiliki

pengetahuan

apapun

tentang

fungsi

dan

Persamaan

atas

juga

memperjelas

bahwa

untuk

mendapatkan

optimal

policy,

agen

harus memilih action a terhadap state s yang dapat memaksimalkan

(s, a

)

2.3.5.2 Algoritma Q-Learning

Q-learning

adalah

suatu

bentuk

dari

reinforcement

learning

yang

dalamnya

agen

belajar

untuk

menetapkan value

untuk

pasangan

state-action

(Watkins

1989).

Dengan

mempelajari

Q-function,

maka

agen

akan

belajar

untuk

mendapatkan

optimal

policy. Sebelumnya dapat dilihat hubungan antara Q dengan V

) =

max Q

(s, a')

sehingga

dapat

ditulis

kembali

persamaan

) = arg max

[r(s, a

)

(d (s, a

))

]

menjadi:

(s, a

) = r

(s, a

)

max Q

(s, a), a')

Untuk

menjelaskan algoritma

ini, digunakan simbol

Q yang

menunjukkan

estimasi agen

(learner’s estimate) atau

hipotsesis dari

fungsi Q

yang sebenarnya. Dalam

algoritma

ini,

agen

merepresentasikan hipotesisnya

pada

tabel

yang

berukuran

besar

dengan

setiap

masukan

yang berbeda

untuk

setiap pasangan state-action. Pada awalnya,

tabel

ini

berisikan

nilai

artinya

agen

pada

awal

pembelajaran tidak

memiliki

pengetahuan

apapun.

Secara

iteratif,

agen

akan

belajar

mengobservasi

lingkungannya