|
35
beberapa kasus, policy dapat berupa function sederhana atau lookup table, namun
dalam kasus
lain policy
melibatkan
proses
komputasi
yang
luas
seperti
halnya
pada
proses
pencarian
(search
process).
Policy adalah
inti
dari
Reinforcement
Learning dalam menentukan perilaku dari learning agent.
2. Reward function
Reward
function mendefinisikan
tujuan
(goal)
dalam suatu
permasalahan
reinforcement
learning. Secara
singkat,
reward
function
memetakan
setiap
pasangan state-action dalam suatu lingkungan ke dalam reward yang dapat
diukur
dengan
angka,
yang
mengindikasikan
nilai
intrinsik
dari
suatu state.
Tujuan
utama
agent
reinforcement
learning
adalah
untuk
memaksimalkan
total
reward yang diterima dalam jangka panjang.
Reward function
menentukan event
mana yang baik ataupun buruk untuk agent. Dalam sistem biologi,
reward
diidentifikasikan dengan kesenangan (pleasure) dan rasa sakit (pain). Kedua hal
ini
adalah
ciri-ciri
yang
menentukan
masalah yang dijumpai oleh agen. Oleh
karena itu, reward
function
harus
tidak
dapat
diubah
oleh
agen.
Namun,
agen
dapat
menyediakan
basis
atau
dasar
untuk
mengubah policy.
Sebagai
contoh,
apabila
suatu
action
yang
dipilih
oleh policy
diikuti
dengan
reward
yang
kecil,
maka policy dapat diubah untuk
memilih action yang lain pada situasi
yang sama
di masa selanjutnya.
|