2008100386IFBab2 - page 32 of 53

Page 32 of 53

Home Start Back Next End

discount rate tidak

mutlak

untuk digunakan karena tidak

memiliki pengaruh

yang

berarti, akan tetapi discount rate dibutuhkan pada MDP yang tidak memiliki state akhir.

Menurut Sutton dan

Barto (1998), berdasarkan

transisi state-action, MDP dapat

dikelompokkan menjadi 2 (dua) jenis, yaitu :

Deterministic MDP / finite MDP, transisi dari state x setelah melakukan action a

selalu menghasilkan state

dengan probabilitas 1.

Nondeterministic

MDP,

terdapat

fungsi

distribusi

probabilitas

(x'| x, a)

yang

memberikan

probabilitas

(kemungkinan)

melakukan

action

ketika

state

akan menghasilkan state

x' .

2.3.4 Action Value Menggunakan Metode e-greedy

Metode

e-greedy merupakan

salah

satu

cara

untuk

menyeimbangakan

antara

proses

eksplorasi

dengan

eksploitasi

agen

terhadap

lingkunganya.

dalam metode

greedy

menandakan

probabilitas

dari

eksplorasi

dalam

setiap

trial,

dimana

memiliki

range

nilai

dari

sampai

jika

maka

algoritma

e-greedy

sepenuhnya

mengarah

kepada

eksplorasi,

sedangkan

jika

maka

algoritma

e-greedy

sepenuhnuya

mengarah kepada

eksploitasi, agen akan

memillih action dengan nilai estimasi tertinggi.

Berikut diberikan algoritma e-greedy dalam bentuk pseudocode:

Set parameter e

random[0,1]

IF i < e THEN

random (a ? A)

//eksplorasi

ELSE

arg max Q (s, a)

a?A

//eksploitasi