2008100386IFBab2 - page 31 of 53

Page 31 of 53

Home Start Back Next End

run).

Framework

ini

bersifat

abstrak

dan

fleksibel

serta

dapat

diaplikasikan

dalam

permasalahan yang berbeda-beda dengan berbagai cara.

2.3.3 Markov Decision Process (MDP)

Menurut

Sutton

dan

Barto

(1998),

dalam

reinforcement

learning,

environment

direpresentasikan sebagai MDP yang didefinisikan sebagai berikut:

S ? kumpulan state dari environment

A(s) ? kumpulan action yang mungkin ketika

P(s, s’ ,a)

probabilitas transisi dari s ke s’ akibat dari a

R(s, s’, a) ? reward yang didapat ketika transisi s ke s’ akibat dari a

discount rate untuk delayed reward

t +1

t +2

Gambar 2.13 Markov Decision Process

adalah

suatu

konstanta

yang

mempunyai

nilai

antara

dan

1),

yang

menunjukkan

hubungan

antara

delayed

reward

dengan

immediate

reward.

Jika

nilai

semakin

mendekati

maka

agen

akan

lebih

mempertimbangkan immediate

reward,

sedangkan

apabila

nilai

semakin

mendekati

maka

delayed

reward

atau

future

reward

yang

akan

lebih

menjadi

pertimbangan bagi agen. Menurut Mance E.

Harmon dan Stephanie S.

Harmon (1996), pada MDP

yang

memiliki state akhir,