2008100386IFBab2 - page 30 of 53

Page 30 of 53

Home Start Back Next End

Secara

lebih

spesifik,

agen

dan

lingkungannya

berinteraksi

pada

urutan

waktu

(time steps),

0, 1, 2, 3, dst. Setiap time step t, agen

menerima beberapa reperesentasi

dari

kondisi

lingkungannya

(state),

dimana

merupakan

kumpulan

state-state

yang mungkin, dan berdasarkan state-state yang mungkin tersebut, agen memilih sebuah

action,

) dimana

, dimana

) merupakan kumpulan action-action yang tersedia pada

state tersebut ( s

). Sebagai akibat dari pemilihan action tersebut, agen menerima sebuah

reward,

, dan agen pindah ke state yang baru s

t+1

Gambar 2.12 Metode Pembelajaran Reinforcement Learning

Setiap

proses

transisi

antara

agen

dengan

lingkungannya

(state)

disebut

juga

dengan

agent’s

policy

dan

dinotasikan

dimana

(s, a

)

adalah

kemungkinan

dari

jika

Metode

reinforcement

learning

dapat

menentukan

bagaimana

agen

merubah

policy-nya

sebagai

hasil

dari

pengalamannya selama

proses

interaksi

dengan

lingkungannya.

Secara

garis

besar, tujuan

agen

adalah

untuk

memaksimalkan

total

reward

yang diterimanya selama proses

interaksi dalam jangka waktu

yang

lama (long