2008100386IFBab2 - page 28 of 53

Page 28 of 53

Home Start Back Next End

3. Value function

Berbeda dengan reward function yang dapat

mengindikasikan action apa yang

baik

dalam immediate

reward

(reward

langsung),

sebuah

value

function dapat

menspesifikasikan action apa yang baik dalam jangka panjang (long run). Secara

singkat,

nilai

dari

sebuah state adalah jumlah keseluruhan reward yang

diharapkan oleh agen untuk diakumulasikan di masa yang akan datang,

dimulai

dari state tersebut.

Apabila reward menentukan nilai

intrinsik dari environmental

state

secara

langsung

(immediate) maka

value

mengindikasikan

nilai

jangka

panjang

dari

suatu state

setelah

memperhitungkan

state-state

berikutnya

dan

reward

yang tersedia pada state-state tersebut. Sebagai contoh, suatu state dapat

saja

selalu

menghasilkan

reward

yang

rendah

secara langsung

tetapi

masih

mempunyai value yang tinggi karena state tersebut secara tetap diikuti oleh state-

state lain yang menghasilkan reward

yang tinggi, atau sebaliknya. Dalam analogi

manusia,

reward

yang

tinggi

adalah

seperti

kesenangan

(pleasure)

dan reward

yang

rendah seperti rasa sakit (pain),

sedangkan value berhubungan dengan

penilaian lebih lanjut mengenai bagaimana senang atau

tidaknya kita pada saat

lingkungan kita berada dalam state tertentu.

Tanpa reward

tidak akan ada value, dan tujuan satu-satunya dari

memperkirakan

value

adalah

untuk

mendapatkan

reward

yang

lebih

besar.

Pemilihan action

dilakukan

berdasarkan

penilaian

value.

Dalam reinforcement

learning, action

yang dicari adalah

yang

menghasilkan state dengan value tertinggi, bukan

reward tertinggi, karena action-action

ini

menghasilkan

jumlah reward

terbesar