|
41
*
*
2.3.5 Q-Learning
Permasalahan
yang
mendasar
yang
terjadi pada proses pembelajaran agen
terhadap
lingkungannya
adalah kesulitan
untuk mengetahui
optimal
policy
p
*
: benar
S
?
A
,
karena training data yang tersedia tidak meyediakan contoh pasangan
(s, a
) yang benar
untuk
mencapai
kondisi
optimal
(Tom
M.
Mitchell,
1997,
p.373).
Namun,
training
information yang tersedia untuk agen hanya berupa serangkaian immediate reward
r
(s
i
,
a
i
)
untuk i = 0, 1,
2, 3, dst.
Berdasarkan
informasi training (training
information)
ini, akan
lebih
mudah
untuk
mempelajari
fungsi evaluasi
numerik (numerical evaluation
function)
yang
ditentukan
berdasarkan
state-action,
dibandingkan
mengimplementasi
optimal policy di dalam fungsi evaluasi ini.
Evaluation
function
yang
harus
dipelajari
oleh
agen
adalah
V
*
.
Melalui
evaluation
function
ini,
agen
dapat
memilih
state-state
yang
dapat
memberikan
cumulative reward yang
lebih besar.
Misalkan agen
sedang
menghadapi dua
kemungkinan
state s1
dan
s2 .
Agen
harus
memilih
state s1
karena
V
(s
1
) >
V
(s
2
)
,
karena
cumulative
reward
yang
akan
dihasilkan
oleh s1
akan
lebih
besar
daripada
s2 .
Evaluation
function
ini
merupakan
perilaku
agen
(agents
policy)
dalam
mengambil
setiap action yang tersedia untuk setiap state. optimal action pada state s adalah action a
yang memaksimalkan jumlah dari immediate reward
r
(s, a)
ditambah nilai
V
*
dari
immediate successor state, didiskon dengan parameter ?.
|