2008100386IFBab2 - page 27 of 53

Page 27 of 53

Home Start Back Next End

beberapa kasus, policy dapat berupa function sederhana atau lookup table, namun

dalam kasus

lain policy

melibatkan

proses

komputasi

yang

luas

seperti

halnya

pada

proses

pencarian

(search

process).

Policy adalah

inti

dari

Reinforcement

Learning dalam menentukan perilaku dari learning agent.

2. Reward function

Reward

function mendefinisikan

tujuan

(goal)

dalam suatu

permasalahan

reinforcement

learning. Secara

singkat,

reward

function

memetakan

setiap

pasangan state-action dalam suatu lingkungan ke dalam reward yang dapat

diukur

dengan

angka,

yang

mengindikasikan

nilai

intrinsik

dari

suatu state.

Tujuan

utama

agent

reinforcement

learning

adalah

untuk

memaksimalkan

total

reward yang diterima dalam jangka panjang.

Reward function

menentukan event

mana yang baik ataupun buruk untuk agent. Dalam sistem biologi,

reward

diidentifikasikan dengan kesenangan (pleasure) dan rasa sakit (pain). Kedua hal

ini

adalah

ciri-ciri

yang

menentukan

masalah yang dijumpai oleh agen. Oleh

karena itu, reward

function

harus

tidak

dapat

diubah

oleh

agen.

Namun,

agen

dapat

menyediakan

basis

atau

dasar

untuk

mengubah policy.

Sebagai

contoh,

apabila

suatu

action

yang

dipilih

oleh policy

diikuti

dengan

reward

yang

kecil,

maka policy dapat diubah untuk

memilih action yang lain pada situasi

yang sama

di masa selanjutnya.