![]() 50
s1, a
12
0
s1, a
14
0
s2, a
21
0
s2, a
23
50
s2, a
25
0
s3, a
32
0
s3, a
36
100
s
4
,
a
41
0
s
4
,
a
45
0
s
5
,
a
54
0
s
5
,
a
52
0
s
5
,
a
56
0
?
2
23
?
3
32
3
36
?
?
?
Q
(s , a
Update
Q
(s
2
,
a
23
)
:
?
?
?
?
?
Q
(s , a )
=
r
+
?
max
Q
(s , a ), Q(s , a )
a
'
?
?
Q
(s
,
a
23
)
=
0
+
0.5
*100
Q
(s
,
a
23
)
=
50
Action yang dipilih : a
36
a
12
a
23
s1
s2
s3
a
21
a
32
a
14
a
41
a
25
a
52
a
36
a
45
s
4
s
5
a
54
a
56
s
6
Posisi sekarang : s
6
?
Update
Q
(s
3
,
a
36
)
:
?
3
36
)
=
100
|