Home Start Back Next End
  
25
pendekatan seperti neural networks (Roy et al., 1997).
Dalam skripsi
ini,
dipakai
pendekatan
neuro-dynamic
programming
untuk
mengoptimalkan
sistem inventory
retail
(Nahmias
dan
Smith,
1993).
Optimasi
sistem
inventory retail membahas permasalahan pada pemesanan dan penempatan persediaan
barang
di
dalam gudang
dan
toko
untuk
memenuhi
permintaan
pelanggan.
Optimasi
sistem inventory
retail
secara
serempak
akan
meminimumkan
biaya
pergudangan
dan
transportasi.
Dalam memilih
algoritma
neuro-dynamic untuk
tujuan
manajemen inventory
retail,
dipilih
dua
macam algoritma neuro-dynamic
yaitu
approximate
policy
iteration
dan online temporal difference method.
2.5.2    Pengertian Approximate Policy Iteration
Approximate policy iteration
(kebijakan
pendekatan
iterasi)
adalah
generalisasi
kebijakan
iterasi,
sebuah
algoritma
klasik
di
dalam
dynamic 
programming.
Algoritma
kebijakan
iterasi
menghasilkan sederetan u
i
.
Awalan kebijakan u
0
pada umumnya dipilih
dari
heuristik
yang
layak,
dan
fungsi
biaya
J
u
0  
di
dalam
kebijakan
tersebut
dihitung
(setiap tahap mempunyai satu nilai yang berbeda dengan tahap yang lain). Lalu, nilai u1
dihasilkan berdasarkan persamaan (Roy et al., 1997):
u1(x) = min J
u
0
(
f
2
(x, u))
.............. (2.25)
Persamaan  di  atas  diulang 
untuk 
menghasilkan 
nilai  kebijakan  selanjutnya.
Untuk
masalah dengan jumlah kebijakan
yang terbatas,
nilai
u
i
sama dengan
nilai u
*
dan
nilai
J
ui
sama
dengan
nilai
J
*
untuk
suatu
nilai
i.
Di
dalam
kebijakan
pendekatan
iterasi,
sebagai
ganti
dihitungnya
fungsi
biaya
J
ui 
pada
setiap
iterasi,
fungsi
ini
dihampiri
oleh
Word to PDF Converter | Word to HTML Converter