Home Start Back Next End
  
42
p
*
(s
) = arg max
[r(s, a)
+
?
V
*
(d (s, a
))
]
a
di mana:
d
(s, a)
?
memberikan state baru hasil dari action a terhadap state s
Berdasarkan persamaan di
atas,
agen
dapat
memperoleh optimal policy
dengan
mempelajari
V
*
,
dengan
kondisi
agen
memiliki pengetahuan
yang
sempurna terhadap
fungsi
immediate
reward
r
dan
fungsi
trasisi
state
d.
Akan
tetapi,
pada
awalnya
agen
tidak
memiliki pengetahuan apapun tentang
fungsi-fungsi
tersebut, sehingga agen tidak
dapat
memilih
action
yang
optimal.
Oleh
karena
itu,
dibutuhkanlah sebuah
evaluation
function Q, guna mendapatkan evalutation function yang optimal ( V
*
).
2.3.5.1 Q-Function
Q-function dinotasikan sebagai
Q(s,a)
dan
nilai
dari
Q
adalah
reward
yang
diterima secara
langsung ketika
agen
mengeksekusi action a
terhadap state
s,
ditambah
nilai (didiskon oleh ?) dari optimal policy setelah action-state tersebut dipilih.
Q
(s, a
) = r
(s, a
)
+
?
V
*
(d (s, a))
Berdasarkan  persamaan  di  atas, 
maka  dapat  ditulis  kembali  persamaan 
p
*
menjadi:
p
*
(s
) = arg max Q(s, a
)
a
Word to PDF Converter | Word to HTML Converter