|
34
yang
telah
diketahui
dalam mendapatkan
reward,
tetapi
agen
juga
harus
melakukan
eksplorasi untuk
menghasilkan pilihan action yang
lebih baik di
masa yang akan datang.
Dilema
yang
terjadi
adalah bahwa eksplorasi maupun eksploitasi tidak dapat semata-
mata dikejar
tanpa
menyebabkan
kegagalan
pada
tugas
yang
dilakukan.
Agen
harus
mencoba
berbagai
macam action
dan
lebih
memilih
action-action
yang
kelihatannya
terbaik. Dalam sebagian besar kasus, setiap action harus dicoba berkali-kali
untuk dapat
mencapai perkiraan expected reward yang handal (reliable).
Ada
dua
karakteristik
dari
reinforcement
learning
yang
membedakan
dari
metode
learning
yang lain,
yaitu trial-and-error search dan delayed reward (Sutton dan
Barto,
1998).
Di
dalam
reinforcement
learning,
trainer
/
teacher
hanya
menyediakan
nilai reward yang bersifat langsung (immediate) yang diperoleh agen ketika
mengeksekusi suatu action. Oleh karena itu agen menghadapi masalah temporal credit
assignment:
menentukan
action
yang
mana
dalam
urutannya
yang
harus
dijalankan
untuk menghasilkan reward akhir yang lebih besar.
2.3.1 Elemen-elemen Dasar Reinforcement Learning
Berdasarkan
Sutton
dan
Barto
(1998),
terdapat
4
(empat)
elemen
dalam
sistem
Reinforcement
Learning,
yaitu: policy, reward
function,
value
function,
dan
model
of
environment.
1. Policy
Policy
menentukan
cara
berperilaku
learning agent
pada
suatu
waktu. Secara
singkat,
policy
merupakan
pemetaan
dari
state
tertentu
pada
suatu
environment
ke
dalam
action
yang
harus
dilakukan
ketika
berada
di
state
tersebut.
Dalam
|