Home Start Back Next End
  
46
s1, a
12
0
s1, a
14
0
s2, a
21
0
s2, a
23
0
s2, a
25
0
s3, a
32
0
s3, a
36
0
s
4
,
a
41
0
s
4
,
a
45
0
s
5
,
a
54
0
s
5
,
a
52
0
s
5
,
a
56
0
s1, a
12
0
s1, a
14
0
s2, a
21
0
s2, a
23
0
s2, a
25
0
s3, a
32
0
s3, a
36
0
s
4
,
a
41
0
s
4
,
a
45
0
s
5
,
a
54
0
s
5
,
a
52
0
s
5
,
a
56
0
Sebelum
proses
training
dijalankan,
semua
nilai
Q-value
diinisialisasi
dengan
nol. 
Seiring 
dengan 
berlangsungnya 
training,
nilai-nilai 
ini 
akan 
terus 
di-update
sehingga nantinya akan menghasilkan nilai Q-value yang konvergen.
1. Episode ke-1
Posisi awal : s1
Pilihan action yang tersedia dari s1
:
a12 dan a
14
Action yang dipilih : a
12
Word to PDF Converter | Word to HTML Converter