Home Start Back Next End
  
33
membangun model perkiraan dari lingkungannya: apa yang akan terjadi apabila dia
melakukan suatu tindakan dan bahkan bagaimana
lawan
akan
menanggapi
tindakannya
tersebut. Masalahnya adalah, tanpa masukan-masukan tentang bagaimana suatu hal
dikatakan baik dan bagaimana suatu hal dikatakan buruk, agen tidak dapat memperoleh
gambaran langkah apa selanjutnya
yang akan diambil. Agen harus mengetahui
bahwa
memenangkan permainan adalah suatu
hal
yang baik dan bahwa kalah dalam permainan
adalah
hal
yang buruk. Jenis masukan seperti
ini dinamakan reward atau reinforcement.
Dalam 
permainan 
seperti 
catur, 
reinforcement 
hanya 
diberikan 
pada 
saat 
akhir
permainan.
Dalam permainan
lain
seperti
tenis
meja,
setiap
poin
yang
dicetak
dapat
dipertimbangkan sebagai reward. Dalam belajar
untuk
merangkak, perpindahan ke arah
depan  dinyatakan  sebagai  suatu  prestasi.  Walaupun  reward  diberikan  sebagai  suatu
input,
agen
harus
dapat
membedakan
antara reward dengan
input-input
yang
lainnya.
Sebagai contoh, hewan-hewan dapat mengenali rasa sakit dan lapar sebagai reward yang
bersifat
negatif,
serta
kesenangan
dan
makanan
sebagai
reward yang
bersifat
positif.
Reinforcement
telah dipelajari
dengan
teliti
oleh psikolog
hewan
selama
lebih
dari
60
tahun.
Salah satu tantangan
terbesar yang muncul dalam
reinforcement
learning dan
tidak 
muncul  pada  metode  learning yang 
lain  adalah  bagaimana  menyeimbangkan
(trade-off) antara eksplorasi dan eksploitasi (Sutton dan Barto, 1998). Untuk
mendapatkan
reward
yang
besar,
agen
reinforcement
learning
harus
memilih
action
yang
telah
dicoba
sebelumnya
dan
telah
terbukti
efektif
untuk
menghasilkan
reward
yang besar. Tetapi
untuk
menemukan action-action tersebut, agen harus mencoba action
yang belum pernah dipilih sebelumnya. Agen
harus
melakukan eksploitasi terhadap apa
Word to PDF Converter | Word to HTML Converter