2010100609STIFBab2 - page 20 of 37

Page 20 of 37

Home Start Back Next End

pendekatan seperti neural networks (Roy et al., 1997).

Dalam skripsi

ini,

dipakai

pendekatan

neuro-dynamic

programming

untuk

mengoptimalkan

sistem inventory

retail

(Nahmias

dan

Smith,

1993).

Optimasi

sistem

inventory retail membahas permasalahan pada pemesanan dan penempatan persediaan

barang

dalam gudang

dan

toko

untuk

memenuhi

permintaan

pelanggan.

Optimasi

sistem inventory

retail

secara

serempak

akan

meminimumkan

biaya

pergudangan

dan

transportasi.

Dalam memilih

algoritma

neuro-dynamic untuk

tujuan

manajemen inventory

retail,

dipilih

dua

macam algoritma neuro-dynamic

yaitu

approximate

policy

iteration

dan online temporal difference method.

2.5.2 Pengertian Approximate Policy Iteration

Approximate policy iteration

(kebijakan

pendekatan

iterasi)

adalah

generalisasi

kebijakan

iterasi,

sebuah

algoritma

klasik

dalam

dynamic

programming.

Algoritma

kebijakan

iterasi

menghasilkan sederetan u

Awalan kebijakan u

pada umumnya dipilih

dari

heuristik

yang

layak,

dan

fungsi

biaya

dalam

kebijakan

tersebut

dihitung

(setiap tahap mempunyai satu nilai yang berbeda dengan tahap yang lain). Lalu, nilai u1

dihasilkan berdasarkan persamaan (Roy et al., 1997):

u1(x) = min J

(

(x, u))

.............. (2.25)

Persamaan di atas diulang

untuk

menghasilkan

nilai kebijakan selanjutnya.

Untuk

masalah dengan jumlah kebijakan

yang terbatas,

nilai

sama dengan

nilai u

dan

nilai

sama

dengan

nilai

untuk

suatu

nilai

dalam

kebijakan

pendekatan

iterasi,

sebagai

ganti

dihitungnya

fungsi

biaya

pada

setiap

iterasi,

fungsi

ini

dihampiri

oleh