![]() 45
2.3.5.3 Contoh Kasus Menggunakan Q-Learning
Untuk
memperjelas
mengenai
konsep
Q-learning,
akan
diberikan
suatu
contoh
kasus
yang
sederhana
namun
cukup
merepresentasikan konsep
tersebut.
Pada
kasus
ini
terdapat 6 buah state (s1, s2,
s3,
s
4
,
s
5
,
dan s
6
)
yang direpresentasikan dalam bentuk grid
world dan sebuah action.
Gambar 2.14 Contoh Kasus Menggunakan Q-Learning
Dari
gambar di
atas, s
6
merupakan goal
state,
sehingga reward
yang didapatkan
oleh
agen
ketika
mencapai goal
state
(s
6
)
adalah
100,
sedangkan yang
menuju
state
lainnya (s1, s2,
s3,
s
4
, dan s
5
) mendapatkan reward 0. Parameter ? yang digunakan adalah
0.5. Mula-mula function table
?
Q diinisialisasikan dengan nilai 0
(agen belum
memiliki
pengetahuan). Selama proses
training, agen akan
meng-update function table
?
Q
untuk
merekam pengalaman
agen
dalam
setiap
episode
sehingga
pada
akhirnya
agen
dapat
memperoleh optimal policy.
Dalam setiap episode, agen akan
memilih state
awal secara
acak (random) dan diperbolehkan untuk memilih action sampai mencapai goal state.
|