![]() 39
s
s
run).
Framework
ini
bersifat
abstrak
dan
fleksibel
serta
dapat
diaplikasikan
ke
dalam
permasalahan yang berbeda-beda dengan berbagai cara.
2.3.3 Markov Decision Process (MDP)
Menurut
Sutton
dan
Barto
(1998),
dalam
reinforcement
learning,
environment
direpresentasikan sebagai MDP yang didefinisikan sebagai berikut:
-
S ? kumpulan state dari environment
s
?
S
-
A(s) ? kumpulan action yang mungkin ketika
-
P(s, s ,a)
?
probabilitas transisi dari s ke s akibat dari a
-
R(s, s, a) ? reward yang didapat ketika transisi s ke s akibat dari a
-
?
?
discount rate untuk delayed reward
.
.
.
s
t
a
r
t
+1
t +1
a
t
+1
r
t
+2
t +2
a
t
+2
r
t
+3
s
t
+3
.
.
.
a
t
+3
Gambar 2.13 Markov Decision Process
?
adalah
suatu
konstanta
yang
mempunyai
nilai
di
antara
0
dan
1
(0
<
?
<
1),
yang
menunjukkan
hubungan
antara
delayed
reward
dengan
immediate
reward.
Jika
nilai
?
semakin
mendekati
0,
maka
agen
akan
lebih
mempertimbangkan immediate
reward,
sedangkan
apabila
nilai
?
semakin
mendekati
1,
maka
delayed
reward
atau
future
reward
yang
akan
lebih
menjadi
pertimbangan bagi agen. Menurut Mance E.
Harmon dan Stephanie S.
Harmon (1996), pada MDP
yang
memiliki state akhir,
|