|
36
3. Value function
Berbeda dengan reward function yang dapat
mengindikasikan action apa yang
baik
dalam immediate
reward
(reward
langsung),
sebuah
value
function dapat
menspesifikasikan action apa yang baik dalam jangka panjang (long run). Secara
singkat,
nilai
dari
sebuah state adalah jumlah keseluruhan reward yang
diharapkan oleh agen untuk diakumulasikan di masa yang akan datang,
dimulai
dari state tersebut.
Apabila reward menentukan nilai
intrinsik dari environmental
state
secara
langsung
(immediate) maka
value
mengindikasikan
nilai
jangka
panjang
dari
suatu state
setelah
memperhitungkan
state-state
berikutnya
dan
reward
yang tersedia pada state-state tersebut. Sebagai contoh, suatu state dapat
saja
selalu
menghasilkan
reward
yang
rendah
secara langsung
tetapi
masih
mempunyai value yang tinggi karena state tersebut secara tetap diikuti oleh state-
state lain yang menghasilkan reward
yang tinggi, atau sebaliknya. Dalam analogi
manusia,
reward
yang
tinggi
adalah
seperti
kesenangan
(pleasure)
dan reward
yang
rendah seperti rasa sakit (pain),
sedangkan value berhubungan dengan
penilaian lebih lanjut mengenai bagaimana senang atau
tidaknya kita pada saat
lingkungan kita berada dalam state tertentu.
Tanpa reward
tidak akan ada value, dan tujuan satu-satunya dari
memperkirakan
value
adalah
untuk
mendapatkan
reward
yang
lebih
besar.
Pemilihan action
dilakukan
berdasarkan
penilaian
value.
Dalam reinforcement
learning, action
yang dicari adalah
yang
menghasilkan state dengan value tertinggi, bukan
reward tertinggi, karena action-action
ini
menghasilkan
jumlah reward
terbesar
|