Home Start Back Next End
  
43
Persamaan
di  atas  menunjukkan
bahwa  agen  mempelajari
Q-function
bukan
mempelajari
fungsi
V
*
.
Dengan
mempelajari
Q-function,
agen
dapat
memilih
optimal
action 
ketika 
agen 
tidak 
memiliki 
pengetahuan 
apapun 
tentang 
fungsi 
dan 
d.
Persamaan
di
atas
juga
memperjelas
bahwa
untuk
mendapatkan
optimal
policy,
agen
harus memilih action a terhadap state s yang dapat memaksimalkan
Q
(s, a
)
.
2.3.5.2 Algoritma Q-Learning
Q-learning
adalah
suatu
bentuk
dari
reinforcement
learning
yang
di
dalamnya
agen
belajar
untuk
menetapkan value
untuk
pasangan
state-action
(Watkins
1989).
Dengan
mempelajari
Q-function,
maka
agen
akan
belajar
untuk
mendapatkan
optimal
policy. Sebelumnya dapat dilihat hubungan antara Q dengan V
*
,
V
*
(s
) =
max Q
(s, a')
a
'
sehingga
dapat
ditulis
kembali
persamaan
p
*
(s
) = arg max
[r(s, a
)
+
?
V
*
(d (s, a
))
]
a
menjadi:
Q
(s, a
) = r
(s, a
)
+
?
max Q
(d
(s, a), a')
a
'
Untuk 
menjelaskan  algoritma 
ini,  digunakan  simbol
?
Q   yang
menunjukkan
estimasi agen
(learner’s estimate) atau
hipotsesis dari
fungsi Q
yang sebenarnya. Dalam
algoritma
ini,
agen
merepresentasikan hipotesisnya
pada
tabel
yang
berukuran
besar
dengan
setiap
masukan
yang berbeda
untuk
setiap pasangan state-action. Pada awalnya,
tabel
ini  
berisikan
nilai
0,
artinya
agen
pada
awal
pembelajaran tidak
memiliki
pengetahuan
apapun.
Secara
iteratif,
agen
akan
belajar
mengobservasi
lingkungannya
Word to PDF Converter | Word to HTML Converter