![]() 46
s1, a
12
0
s1, a
14
0
s2, a
21
0
s2, a
23
0
s2, a
25
0
s3, a
32
0
s3, a
36
0
s
4
,
a
41
0
s
4
,
a
45
0
s
5
,
a
54
0
s
5
,
a
52
0
s
5
,
a
56
0
s1, a
12
0
s1, a
14
0
s2, a
21
0
s2, a
23
0
s2, a
25
0
s3, a
32
0
s3, a
36
0
s
4
,
a
41
0
s
4
,
a
45
0
s
5
,
a
54
0
s
5
,
a
52
0
s
5
,
a
56
0
Sebelum
proses
training
dijalankan,
semua
nilai
Q-value
diinisialisasi
dengan
nol.
Seiring
dengan
berlangsungnya
training,
nilai-nilai
ini
akan
terus
di-update
sehingga nantinya akan menghasilkan nilai Q-value yang konvergen.
1. Episode ke-1
Posisi awal : s1
Pilihan action yang tersedia dari s1
:
a12 dan a
14
Action yang dipilih : a
12
|