2008100386IFBab2 - page 38 of 53

Page 38 of 53

Home Start Back Next End

46

s1, a

12

0

s1, a

14

0

s2, a

21

0

s2, a

23

0

s2, a

25

0

s3, a

32

0

s3, a

36

0

s

4

,

a

41

0

s

4

,

a

45

0

s

5

,

a

54

0

s

5

,

a

52

0

s

5

,

a

56

0

s1, a

12

0

s1, a

14

0

s2, a

21

0

s2, a

23

0

s2, a

25

0

s3, a

32

0

s3, a

36

0

s

4

,

a

41

0

s

4

,

a

45

0

s

5

,

a

54

0

s

5

,

a

52

0

s

5

,

a

56

0

Sebelum

proses

training

dijalankan,

semua

nilai

Q-value

diinisialisasi

dengan

nol.

Seiring

dengan

berlangsungnya

training,

nilai-nilai

ini

akan

terus

di-update

sehingga nantinya akan menghasilkan nilai Q-value yang konvergen.

1. Episode ke-1

Posisi awal : s1

Pilihan action yang tersedia dari s1

:

a12 dan a

14

Action yang dipilih : a

12