|
32
akan
mengubah
bobot
sehingga
beberapa
vektor
input
yang
memiliki
kesamaan
fitur
akan dikelompokan ke dalam output yang sama.
Keuntungan
dari
unsupervised learning adalah
kemampuannya
untuk
mengelompokkan
input
data
yang
hilang
atau
mengandung
error
(noise)
dengan
baik.
Sistem dapat
menggunakan
fitur
yang
telah
diambil
dan
dipelajari
dari
training
data,
untuk membangun kembali pola input data dari input data yang rusak (corrupted).
2.3 Reinforcement Learning (RL)
Reinforcement learning (learning with a critic) adalah
suatu pembelajaran
tentang bagaimana suatu agen dapat belajar apa yang akan dilakukan, khususnya ketika
tidak ada
guru
yang
mengarahkan agen
itu untuk
mengambil
tindakan yang benar dalam
setiap situasi (Sutton dan Barto, 1998).
Kebalikan dari supervised
learning, pada reinforcement learning, agen diberikan
evaluasi
atas
tindakan
yang
telah
dilakukan, namun dengan tidak memberitahukan
tindakan apa yang benar dan harus dilakukan. Agen akan diberikan penghargaan
(reward) atau hukuman (punishment) atas tindakannya. Penghargaan dan hukuman
inilah yang disebut dengan reinforcement.
Sebagai
contohnya,
suatu
agen
dapat belajar
bagaimana
cara
bermain
catur
dengan supervised learning dengan memberikan contoh dari situasi-situasi permainan
dan
bagaimana
cara
terbaik
untuk
mengatasi
situasi
seperti
itu.
Dalam reinforcement
learning, dimana tidak ada
guru
yang
menyediakan contoh-contoh situasi atau keadaan,
agen akan mencoba
mengatasi
situasi
yang dihadapi dengan
gerakan secara acak
(random moves). Dengan
mencoba
gerakan
secara acak
tersebut, agen dapat
|