|
33
membangun model perkiraan dari lingkungannya: apa yang akan terjadi apabila dia
melakukan suatu tindakan dan bahkan bagaimana
lawan
akan
menanggapi
tindakannya
tersebut. Masalahnya adalah, tanpa masukan-masukan tentang bagaimana suatu hal
dikatakan baik dan bagaimana suatu hal dikatakan buruk, agen tidak dapat memperoleh
gambaran langkah apa selanjutnya
yang akan diambil. Agen harus mengetahui
bahwa
memenangkan permainan adalah suatu
hal
yang baik dan bahwa kalah dalam permainan
adalah
hal
yang buruk. Jenis masukan seperti
ini dinamakan reward atau reinforcement.
Dalam
permainan
seperti
catur,
reinforcement
hanya
diberikan
pada
saat
akhir
permainan.
Dalam permainan
lain
seperti
tenis
meja,
setiap
poin
yang
dicetak
dapat
dipertimbangkan sebagai reward. Dalam belajar
untuk
merangkak, perpindahan ke arah
depan dinyatakan sebagai suatu prestasi. Walaupun reward diberikan sebagai suatu
input,
agen
harus
dapat
membedakan
antara reward dengan
input-input
yang
lainnya.
Sebagai contoh, hewan-hewan dapat mengenali rasa sakit dan lapar sebagai reward yang
bersifat
negatif,
serta
kesenangan
dan
makanan
sebagai
reward yang
bersifat
positif.
Reinforcement
telah dipelajari
dengan
teliti
oleh psikolog
hewan
selama
lebih
dari
60
tahun.
Salah satu tantangan
terbesar yang muncul dalam
reinforcement
learning dan
tidak
muncul pada metode learning yang
lain adalah bagaimana menyeimbangkan
(trade-off) antara eksplorasi dan eksploitasi (Sutton dan Barto, 1998). Untuk
mendapatkan
reward
yang
besar,
agen
reinforcement
learning
harus
memilih
action
yang
telah
dicoba
sebelumnya
dan
telah
terbukti
efektif
untuk
menghasilkan
reward
yang besar. Tetapi
untuk
menemukan action-action tersebut, agen harus mencoba action
yang belum pernah dipilih sebelumnya. Agen
harus
melakukan eksploitasi terhadap apa
|