2008100386IFBab2 - page 37 of 53

Page 37 of 53

Home Start Back Next End

2.3.5.3 Contoh Kasus Menggunakan Q-Learning

Untuk

memperjelas

mengenai

konsep

Q-learning,

akan

diberikan

suatu

contoh

kasus

yang

sederhana

namun

cukup

merepresentasikan konsep

tersebut.

Pada

kasus

ini

terdapat 6 buah state (s1, s2,

s3,

dan s

)

yang direpresentasikan dalam bentuk grid

world dan sebuah action.

Gambar 2.14 Contoh Kasus Menggunakan Q-Learning

Dari

gambar di

atas, s

merupakan goal

state,

sehingga reward

yang didapatkan

oleh

agen

ketika

mencapai goal

state

)

adalah

100,

sedangkan yang

menuju

state

lainnya (s1, s2,

s3,

, dan s

) mendapatkan reward 0. Parameter ? yang digunakan adalah

0.5. Mula-mula function table

Q diinisialisasikan dengan nilai 0

(agen belum

memiliki

pengetahuan). Selama proses

training, agen akan

meng-update function table

untuk

merekam pengalaman

agen

dalam

setiap

episode

sehingga

pada

akhirnya

agen

dapat

memperoleh optimal policy.

Dalam setiap episode, agen akan

memilih state

awal secara

acak (random) dan diperbolehkan untuk memilih action sampai mencapai goal state.