Home Start Back Next End
  
40
discount  rate  tidak
mutlak 
untuk  digunakan  karena  tidak 
memiliki  pengaruh 
yang
berarti, akan tetapi discount rate dibutuhkan pada MDP yang tidak memiliki state akhir.
Menurut Sutton dan
Barto (1998), berdasarkan
transisi state-action, MDP dapat
dikelompokkan menjadi 2 (dua) jenis, yaitu :
-
Deterministic MDP / finite MDP, transisi dari state x setelah melakukan action a
selalu menghasilkan state
x'
dengan probabilitas 1.
-
Nondeterministic
MDP,
terdapat
fungsi
distribusi
probabilitas
P
(x'| x, a)
yang
memberikan
probabilitas
(kemungkinan)
melakukan
action
a
ketika
di
state
x
akan menghasilkan state
x' .
2.3.4 Action Value Menggunakan Metode e-greedy
Metode
e-greedy merupakan
salah
satu
cara
untuk
menyeimbangakan
antara
proses
eksplorasi
dengan
eksploitasi
agen
terhadap
lingkunganya.
e
dalam metode
e-
greedy
menandakan
probabilitas
dari
eksplorasi
dalam
setiap
trial,
dimana
e
memiliki
range
nilai
dari
0
sampai
1.
jika
e
=
1,
maka
algoritma
e-greedy
sepenuhnya
mengarah
kepada 
eksplorasi, 
sedangkan 
jika 
e
0, 
maka 
algoritma 
e-greedy
sepenuhnuya
mengarah kepada
eksploitasi, agen akan
memillih action dengan nilai estimasi tertinggi.
Berikut diberikan algoritma e-greedy dalam bentuk pseudocode:
Set parameter e
i
=
random[0,1]
IF  i < e  THEN
a
=
random (a ? A)
//eksplorasi
ELSE
a
=
arg max Q (s, a)
a?A
//eksploitasi
Word to PDF Converter | Word to HTML Converter