Home Start Back Next End
  
41
*
*
2.3.5 Q-Learning
Permasalahan
yang
mendasar
yang
terjadi pada proses pembelajaran agen
terhadap
lingkungannya
adalah kesulitan
untuk mengetahui
optimal
policy
p
*
: benar
S
?
A
,
karena training data yang tersedia tidak meyediakan contoh pasangan
(s, a
yang benar
untuk
mencapai
kondisi
optimal
(Tom
M.
Mitchell,
1997,
p.373).
Namun,
training
information  yang tersedia untuk agen hanya berupa serangkaian immediate  reward
r
(s
i
,
a
i
)
untuk i = 0, 1,
2, 3, dst.
Berdasarkan
informasi training (training
information)
ini, akan
lebih
mudah
untuk
mempelajari
fungsi evaluasi
numerik (numerical evaluation
function)
yang
ditentukan
berdasarkan
state-action,
dibandingkan
mengimplementasi
optimal policy di dalam fungsi evaluasi ini.
Evaluation 
function 
yang 
harus 
dipelajari 
oleh 
agen 
adalah
V
*
Melalui
evaluation 
function 
ini, 
agen 
dapat 
memilih 
state-state 
yang 
dapat 
memberikan
cumulative   reward   yang 
lebih   besar.  
Misalkan   agen  
sedang  
menghadapi   dua
kemungkinan
state  s1
dan
s2 .
Agen
harus
memilih
state  s1
karena
(s
1
) >
V
(s
2
)
,
karena
cumulative
reward
yang
akan
dihasilkan
oleh  s1
akan
lebih
besar
daripada
s2 .
Evaluation
function
ini
merupakan
perilaku
agen
(agent’s
policy)
dalam
mengambil
setiap action yang tersedia untuk setiap state. optimal action pada state s adalah action a
yang  memaksimalkan  jumlah  dari  immediate reward
r
(s, a)
ditambah  nilai
V
*
dari
immediate successor state, didiskon dengan parameter ?.
Word to PDF Converter | Word to HTML Converter