2008100386IFBab2 - page 25 of 53

Page 25 of 53

Home Start Back Next End

membangun model perkiraan dari lingkungannya: apa yang akan terjadi apabila dia

melakukan suatu tindakan dan bahkan bagaimana

lawan

akan

menanggapi

tindakannya

tersebut. Masalahnya adalah, tanpa masukan-masukan tentang bagaimana suatu hal

dikatakan baik dan bagaimana suatu hal dikatakan buruk, agen tidak dapat memperoleh

gambaran langkah apa selanjutnya

yang akan diambil. Agen harus mengetahui

bahwa

memenangkan permainan adalah suatu

hal

yang baik dan bahwa kalah dalam permainan

adalah

hal

yang buruk. Jenis masukan seperti

ini dinamakan reward atau reinforcement.

Dalam

permainan

seperti

catur,

reinforcement

hanya

diberikan

pada

saat

akhir

permainan.

Dalam permainan

lain

seperti

tenis

meja,

setiap

poin

yang

dicetak

dapat

dipertimbangkan sebagai reward. Dalam belajar

untuk

merangkak, perpindahan ke arah

depan dinyatakan sebagai suatu prestasi. Walaupun reward diberikan sebagai suatu

input,

agen

harus

dapat

membedakan

antara reward dengan

input-input

yang

lainnya.

Sebagai contoh, hewan-hewan dapat mengenali rasa sakit dan lapar sebagai reward yang

bersifat

negatif,

serta

kesenangan

dan

makanan

sebagai

reward yang

bersifat

positif.

Reinforcement

telah dipelajari

dengan

teliti

oleh psikolog

hewan

selama

lebih

dari

tahun.

Salah satu tantangan

terbesar yang muncul dalam

reinforcement

learning dan

tidak

muncul pada metode learning yang

lain adalah bagaimana menyeimbangkan

(trade-off) antara eksplorasi dan eksploitasi (Sutton dan Barto, 1998). Untuk

mendapatkan

reward

yang

besar,

agen

reinforcement

learning

harus

memilih

action

yang

telah

dicoba

sebelumnya

dan

telah

terbukti

efektif

untuk

menghasilkan

reward

yang besar. Tetapi

untuk

menemukan action-action tersebut, agen harus mencoba action

yang belum pernah dipilih sebelumnya. Agen

harus

melakukan eksploitasi terhadap apa