2008100386IFBab2 - page 26 of 53

Page 26 of 53

Home Start Back Next End

yang

telah

diketahui

dalam mendapatkan

reward,

tetapi

agen

juga

harus

melakukan

eksplorasi untuk

menghasilkan pilihan action yang

lebih baik di

masa yang akan datang.

Dilema

yang

terjadi

adalah bahwa eksplorasi maupun eksploitasi tidak dapat semata-

mata dikejar

tanpa

menyebabkan

kegagalan

pada

tugas

yang

dilakukan.

Agen

harus

mencoba

berbagai

macam action

dan

lebih

memilih

action-action

yang

kelihatannya

terbaik. Dalam sebagian besar kasus, setiap action harus dicoba berkali-kali

untuk dapat

mencapai perkiraan expected reward yang handal (reliable).

Ada

dua

karakteristik

dari

reinforcement

learning

yang

membedakan

dari

metode

learning

yang lain,

yaitu trial-and-error search dan delayed reward (Sutton dan

Barto,

1998).

dalam

reinforcement

learning,

trainer

teacher

hanya

menyediakan

nilai reward yang bersifat langsung (immediate) yang diperoleh agen ketika

mengeksekusi suatu action. Oleh karena itu agen menghadapi masalah temporal credit

assignment:

menentukan

action

yang

mana

dalam

urutannya

yang

harus

dijalankan

untuk menghasilkan reward akhir yang lebih besar.

2.3.1 Elemen-elemen Dasar Reinforcement Learning

Berdasarkan

Sutton

dan

Barto

(1998),

terdapat

(empat)

elemen

dalam

sistem

Reinforcement

Learning,

yaitu: policy, reward

function,

value

function,

dan

model

environment.

1. Policy

Policy

menentukan

cara

berperilaku

learning agent

pada

suatu

waktu. Secara

singkat,

policy

merupakan

pemetaan

dari

state

tertentu

pada

suatu

environment

dalam

action

yang

harus

dilakukan

ketika

berada

state

tersebut.

Dalam