![]() 40
discount rate tidak
mutlak
untuk digunakan karena tidak
memiliki pengaruh
yang
berarti, akan tetapi discount rate dibutuhkan pada MDP yang tidak memiliki state akhir.
Menurut Sutton dan
Barto (1998), berdasarkan
transisi state-action, MDP dapat
dikelompokkan menjadi 2 (dua) jenis, yaitu :
-
Deterministic MDP / finite MDP, transisi dari state x setelah melakukan action a
selalu menghasilkan state
x'
dengan probabilitas 1.
-
Nondeterministic
MDP,
terdapat
fungsi
distribusi
probabilitas
P
(x'| x, a)
yang
memberikan
probabilitas
(kemungkinan)
melakukan
action
a
ketika
di
state
x
akan menghasilkan state
x' .
2.3.4 Action Value Menggunakan Metode e-greedy
Metode
e-greedy merupakan
salah
satu
cara
untuk
menyeimbangakan
antara
proses
eksplorasi
dengan
eksploitasi
agen
terhadap
lingkunganya.
e
dalam metode
e-
greedy
menandakan
probabilitas
dari
eksplorasi
dalam
setiap
trial,
dimana
e
memiliki
range
nilai
dari
0
sampai
1.
jika
e
=
1,
maka
algoritma
e-greedy
sepenuhnya
mengarah
kepada
eksplorasi,
sedangkan
jika
e
=
0,
maka
algoritma
e-greedy
sepenuhnuya
mengarah kepada
eksploitasi, agen akan
memillih action dengan nilai estimasi tertinggi.
Berikut diberikan algoritma e-greedy dalam bentuk pseudocode:
Set parameter e
i
=
random[0,1]
IF i < e THEN
a
=
random (a ? A)
//eksplorasi
ELSE
a
=
arg max Q (s, a)
a?A
//eksploitasi
|