2008100386IFBab2 - page 33 of 53

Page 33 of 53

Home Start Back Next End

2.3.5 Q-Learning

“Permasalahan

yang

mendasar

yang

terjadi pada proses pembelajaran agen

terhadap

lingkungannya

adalah kesulitan

untuk mengetahui

optimal

policy

: benar

karena training data yang tersedia tidak meyediakan contoh pasangan

(s, a

) yang benar

untuk

mencapai

kondisi

optimal”

(Tom

Mitchell,

1997,

p.373).

Namun,

training

information yang tersedia untuk agen hanya berupa serangkaian immediate reward

)

untuk i = 0, 1,

2, 3, dst.

Berdasarkan

informasi training (training

information)

ini, akan

lebih

mudah

untuk

mempelajari

fungsi evaluasi

numerik (numerical evaluation

function)

yang

ditentukan

berdasarkan

state-action,

dibandingkan

mengimplementasi

optimal policy di dalam fungsi evaluasi ini.

Evaluation

function

yang

harus

dipelajari

oleh

agen

adalah

Melalui

evaluation

function

ini,

agen

dapat

memilih

state-state

yang

dapat

memberikan

cumulative reward yang

lebih besar.

Misalkan agen

sedang

menghadapi dua

kemungkinan

state s1

dan

s2 .

Agen

harus

memilih

state s1

karena

) >

)

karena

cumulative

reward

yang

akan

dihasilkan

oleh s1

akan

lebih

besar

daripada

s2 .

Evaluation

function

ini

merupakan

perilaku

agen

(agent’s

policy)

dalam

mengambil

setiap action yang tersedia untuk setiap state. optimal action pada state s adalah action a

yang memaksimalkan jumlah dari immediate reward

(s, a)

ditambah nilai

dari

immediate successor state, didiskon dengan parameter ?.