2008100386IFBab2 - page 24 of 53

Page 24 of 53

Home Start Back Next End

akan

mengubah

bobot

sehingga

beberapa

vektor

input

yang

memiliki

kesamaan

fitur

akan dikelompokan ke dalam output yang sama.

Keuntungan

dari

unsupervised learning adalah

kemampuannya

untuk

mengelompokkan

input

data

yang

hilang

atau

mengandung

error

(noise)

dengan

baik.

Sistem dapat

menggunakan

fitur

yang

telah

diambil

dan

dipelajari

dari

training

data,

untuk membangun kembali pola input data dari input data yang rusak (corrupted).

2.3 Reinforcement Learning (RL)

Reinforcement learning (learning with a critic) adalah

suatu pembelajaran

tentang bagaimana suatu agen dapat belajar apa yang akan dilakukan, khususnya ketika

tidak ada

guru

yang

mengarahkan agen

itu untuk

mengambil

tindakan yang benar dalam

setiap situasi (Sutton dan Barto, 1998).

Kebalikan dari supervised

learning, pada reinforcement learning, agen diberikan

evaluasi

atas

tindakan

yang

telah

dilakukan, namun dengan tidak memberitahukan

tindakan apa yang benar dan harus dilakukan. Agen akan diberikan penghargaan

(reward) atau hukuman (punishment) atas tindakannya. Penghargaan dan hukuman

inilah yang disebut dengan reinforcement.

Sebagai

contohnya,

suatu

agen

dapat belajar

bagaimana

cara

bermain

catur

dengan supervised learning – dengan memberikan contoh dari situasi-situasi permainan

dan

bagaimana

cara

terbaik

untuk

mengatasi

situasi

seperti

itu.

Dalam reinforcement

learning, dimana tidak ada

guru

yang

menyediakan contoh-contoh situasi atau keadaan,

agen akan mencoba

mengatasi

situasi

yang dihadapi dengan

gerakan secara acak

(random moves). Dengan

mencoba

gerakan

secara acak

tersebut, agen dapat