![]() 38
Secara
lebih
spesifik,
agen
dan
lingkungannya
berinteraksi
pada
urutan
waktu
(time steps),
t
=
0, 1, 2, 3, dst. Setiap time step t, agen
menerima beberapa reperesentasi
dari
kondisi
lingkungannya
(state),
s
t
?
S
,
dimana
S
merupakan
kumpulan
state-state
yang mungkin, dan berdasarkan state-state yang mungkin tersebut, agen memilih sebuah
action,
a
t
?
A
(s
t
) dimana
, dimana
A
(s
t
) merupakan kumpulan action-action yang tersedia pada
state tersebut ( s
t
). Sebagai akibat dari pemilihan action tersebut, agen menerima sebuah
reward,
r
t
+1
?
R
, dan agen pindah ke state yang baru s
t+1
.
Gambar 2.12 Metode Pembelajaran Reinforcement Learning
Setiap
proses
transisi
antara
agen
dengan
lingkungannya
(state)
disebut
juga
dengan
agents
policy
dan
dinotasikan
p
t
,
dimana
p
t
(s, a
)
adalah
kemungkinan
dari
a
t
=
a
jika
s
t
=
s
.
Metode
reinforcement
learning
dapat
menentukan
bagaimana
agen
merubah
policy-nya
sebagai
hasil
dari
pengalamannya selama
proses
interaksi
dengan
lingkungannya.
Secara
garis
besar, tujuan
agen
adalah
untuk
memaksimalkan
total
reward
yang diterimanya selama proses
interaksi dalam jangka waktu
yang
lama (long
|