BAB 2
LANDASAN TEORI
2.1 Pengertian Data
Menurut Inmon (2002, p388), data adalah rekaman dari fakta-fakta, konsep-
konsep, atau instruksi-instruksi pada media
penyimpanan
untuk
komunikasi,
pengambilan, dan pemrosesan dengan cara otomatis dan presentasi sebagai informasi
yang dapat dimengerti oleh manusia.
Menurut Turban et al (2005, p38), data adalah deskripsi dasar tentang sesuatu,
kejadian,
kegiatan,
dan
transaksi
yang ditangkap,
direkam,
disimpan,
dan
diklasifikasikan, namun tidak terorganisir untuk menyampaikan suatu arti khusus.
Menurut Hoffer, Prescott dan McFadden (2002,p5), data adalah sebuah
representasi
dari
objek-objek
dan
kejadian-kejadian
yang berarti dan penting di
lingkungan pemakai.
Berdasarkan pengertianpengertian di
atas, dapat disimpulkan bahwa data
merupakan
rekaman
dari
fakta-fakta
tentang sesuatu, kejadian,
dan
transaksi
yang
disimpan pada media penyimpanan sebagai informasi yang dapat dimengerti oleh
manusia.
2.2 Pengertian Database
Menurut Inmon (2002, p388), database adalah sebuah koleksi data yang disimpan
yang saling berhubungan berdasarkan sebuah
skema. Sebuah database dapat
melayani
satu atau banyak aplikasi.
5
|
Menurut Connoly dan Begg (2002, p14), database adalah sekumpulan dari data
yang terhubung secara logis, dan deskripsi dari data
ini,
yang dirancang
untuk
memenuhi kebutuhan informasi dari sebuah organisasi
Berdasarkan pengertianpengertian di
atas, dapat disimpulkan bahwa database
adalah sekumpulan data yang disimpan yang saling berhubungan secara logis
berdasarkan sebuah skema.
2.3 Database Management System (DBMS)
Menurut Connolly dan Begg (2002, p16), Database Management System (DBMS)
adalah sistem perangkat lunak yang memungkinkan pengguna untuk mendefinisikan,
membuat, menjaga, dan mengontrol akses ke database.
Berdasarkan pengertian di
atas, dapat disimpulkan bahwa Database Management
System (DBMS) adalah system perangkat lunak yang digunakan untuk
mendefinisikan,
membuat, menjaga, dan mengontrol akses ke database.
2.4 Pengertian OLTP (Online Transaction Processing)
Menurut Turban et al (2005, p241), OLTP adalah Transaction Processing System
(TPS)
beroperasi
pada
arsitektur client/server,
memperbolehkan
pemasok
organisasi
untuk
masuk TPS
melalui
ekstranet dan
memperhatikan tingkat persediaan perusahaan
atau jadwal produksi.
Berdasarkan
pengertian
di
atas,
dapat
disimpulkan
bahwa
OLTP adalah
sistem
yang mengatur transaction processing yang mengunakan arsitektur client/server.
6
|
7
2.5 Pengertian OLAP (Online Analytical Processing)
Menurut Connolly dan Begg (2002, p1101), OLAP (Online Analytical Processing)
adalah
sintesis,
analisis dan konsolidasi dinamis
dari sejumlah
besar multidimensional
data.
Berdasarkan pengertian di
atas, dapat disimpulkan bahwa OLAP adalah analisis
dari sejumlah besar multidimensional data.
2.6 Pengertian Data Warehouse
Menurut Inmon (2002, p31), data warehouse adalah koleksi data yang berorientasi
subjek
(subject
oriented),
terintegrasi
(intergrated), tidak berubah (non
volatile),
memiliki variasi waktu (time variant) yang mendukung keputusan manajemen.
Menurut
Connolly
dan Begg
(2002, p1047), data warehouse
adalah
suatu
kumpulan data yang bersifat subject-oriented, integrated, time-variant, dan non-volatile
dalam mendukung proses pengambilan keputusan.
Menurut Berson dan Smith (2001,p4), data warehouse adalah gabungan teknologi
yang bertujuan mengefektifkan integrasi database operasional ke dalam lingkungan yang
memungkinkan penggunaan secara strategis.
Menurut
Poe
(1996,p24)
data
warehouse adalah
database yang
bersifat
analisis
yang digunakan sebagai landasan dalam sistem pendukung keputusan.
Berdasarkan
pengertianpengertian
di
atas, dapat disimpulkan bahwa
data
warehouse adalah suatu kumpulan data yang bersifat berorientasi subjek (subject
oriented), terintegrasi (intergrated), tidak berubah (non volatile), memiliki variasi waktu
(time variant) yang mendukung proses pengambilan keputusan.
|
![]() 8
2.7 Perbandingan Data Operasional dan Data Warehouse
Secara umum, perbandingan antara data operasional dan data warehouse:
Tabel 2.1 Perbandingan Umum antara Data Operasional
dan Data warehouse (Inmon, 2002, p15)
Data Operasional
Data Warehouse
Berorientasi aplikasi
Detail
Dapat di-update
Disajikan untuk komunitas operasional
Sesuai
dengan
SDLC
(System
Development Life Cycle)
Jumlah data yang diproses kecil
Non-redundancy (Normalisasi)
Struktur yang tetap / statis
Mendukung operasional sehari-hari
Pengaksesan data besar
Berorientasi subjek
Ringkas dan telah disaring
Tidak dapat di-update
Disajikan untuk komunitas manajerial
Siklus hidup yang lebih lengkap
Jumlah data yang diproses besar
Redundancy (Denormalisasi)
Struktur yang fleksibel
Mendukung kebutuhan manajerial
Pengaksesan data kecil / sedang
2.8 Karakteristik Data Warehouse
Menurut Inmon (2002, p31), beberapa karaketeristik data warehouse antara lain :
2.8.1 Subject Oriented
Pada
awalnya
sistem pengoperasian
diatur
berdasarkan aplikasi
dari perusahaan.
Contohnya untuk perusahaan asuransi, aplikasi yang digunakan adalah kesehatan,
kehidupan, dan kecelakaan. Subjek dari perusahaan tersebut adalah pelanggan,
kebijakan,
premi,
dan
klaim.
Jadi
pada
data warehouse
tidak
berdasarkan
aplikasi
melainkan berdasarkan subjek.
2.8.2 Integrated
Karakteristik
kedua
dari
data
warehouse adalah
terintegrasi.
Dari
semua
aspek
data warehouse, integrasi adalah yang terpenting. Data diambil dari beberapa sumber ke
dalam data warehouse. Data tersebut diubah, diformat
ulang, disusun ulang, diringkas
|
![]() 9
dan seterusnya. Hasil dari data tersebut
tinggal di data warehouse
mempunyai sebuah
gambar fisik perusahaan.
Gambar 2.1 Permasalahan dalam integrasi (Inmon, 2005, p31)
2.8.3 Non volatile
Karakter penting ketiga dari data warehouse adalah
tidak berubah (non volatile).
Data dapat diakses, dimanipulasi (update) pada lingkungan operasional akan tetapi, pada
data warehouse data hanya dapat di-load dan diakses tetapi tidak dapat di-update.
|
![]() 10
2.8.4 Time variant
Karakteristik terakhir dari data warehouse adalah variasi waktu. Maksudnya
adalah setiap unit data dalam data warehouse akurat dalam suatu momen dalam waktu.
Tabel 2.2 Perbandingan Time Variant antara Data Operasional
dan Data Warehouse (Inmon, 2002, p35)
Data Operasional
Data Warehouse
Mempunyai time horizon 60-90 hari
Data atau record dapat di-update
Key
structure
dapat
termasuk
atau
tidak termasuk elemen waktu
Mempunyai time horizon 5-10 tahun
Data atau record tidak dapat di-update
Key structure termasuk elemen waktu
2.9 Struktur Data Warehouse
Menurut
Inmon
(2002,
p35),
data
mengalir
ke
dalam data
warehouse
dari
lingkungan operasional. Biasanya data mengalami transformasi signifikan dari tingkat
operasional ke tingkat data warehouse. Data dilewatkan dari current detail data ke older
detail.
Setelah
data
diringkas,
data
tersebut
dilewatkan
dari
current
detail
ke lightly
summarized data, kemudian dari lightly summarized data ke highly summarized data.
|
![]() 11
Gambar 2.2 Struktur Data Warehouse (Inmon, 2002, p36)
Current Detailed Data
Current detailed data merupakan data yang sekarang yang diperoleh dari database
operasional. Data ini sangat banyak dan detail.
Old Detailed Data
Old detailed data merupakan ringkasan data atau summary didapat
dari current
detail data yang di-backup dan disimpan dalam media penyimpanan yang terpisah. Data
disimpan dalam sebuah penyimpanan seperti magnetic tape atau optical disk.
|
12
Lightly Summarized Data
Lightly
summarized
data
merupakan
data
ringkasan
atau summary
dari current
detailed data yang bersifat "total summary" dan rinci. Lightly summarized data biasa
disebut data mart.
Highly Summarized Data
Highly summarized data
merupakan data
yang telah diringkas secara menyeluruh
dan digunakan untuk mendukung pengambilan keputusan.
Metadata
Menurut Inmon (2002, p393), metadata adalah data tentang data, deskripsi dari
struktur, isi, kunci, indeks, dan lain-lain dari data.
Menurut Inmon (2005, p269-270), hal-hal penting dari metadata meliputi:
a. ID dokumen
b. Tanggal entri ke warehouse
c. Deskripsi dari dokumen
d. Sumber dari dokumen
e. Tanggal sumber dari dokumen
f.
Klasifikasi dokumen
g. Indeks kata
h. pembersihan tanggal
i.
Lokasi fisikal
j.
Panjang dokumen
k. Referensi terkait
|
13
Menurut Connolly dan
Begg
(2002, p1055),
metadata digunakan untuk berbagai
tujuan meliputi :
a. Proses ekstraksi dan loading
Metadata digunakan untuk
memetakan sumber data ke dalam pandangan
umum dari data dalam warehouse.
b. Proses manajemen warehouse
Metadata digunakan untuk mengotomatiskan pembuatan tabel ringkasan.
c. Sebagai bagian dari proses manajemen query
Metadata digunakan untuk
menghubungkan suatu query dengan sumber data
yang tepat.
2.10 Arsitektur Data warehouse
Arsitektur data warehouse merupakan suatu kerangka yang dirancang dengan cara
memahami
bagaimana
data
dipindahkan
di
dalam sistem.
Karakteristik
arsitektur dari
data warehouse adalah:
a. Data diambil dari sistem informasi yang telah ada, database, dan file.
b. Data tersebut diintegrasikan dan ditransformasikan sebelum disimpan ke dalam
data warehouse.
c. Data warehouse adalah read-only database yang diciptakan untuk mengambil
keputusan.
d. User mengakses data warehouse melalui front-end tool atau aplikasi.
|
![]() 14
Gambar 2.3 Gambar Arsitektur Data warehouse (Connolly dan Begg , 2002, p1053)
Komponen
utama data
warehouse
menurut
Connolly dan Begg
(2002,
p1053)
adalah:
a. Operational
Data, sumber data
ini didapat
dari
data
operasional yang
dilakukan pada database awal.
b.
Operational Data Store (ODS), tempat penyimpanan data operasional yang
sedang terjadi dan yang terintegrasi digunakan untuk analisa.
c. Load Manager (sering juga disebut komponen front-end), menampilkan semua
operasi yang diasosiasikan dengan
data yang telah diekstrak dan di-load ke
dalam warehouse.
d. Warehouse Manager, menampilkan semua operasi yang diasosiasikan dengan
manajemen data dalam warehouse.
|
15
e. Query Manager (disebut juga dengan komponen back-end), menampilkan
semua operasi yang diasosiasikan dengan manajemen dari queries pengguna.
f.
Archive/
Backup
Data,
area
warehouse
yang
menyimpan
detailed
dan
summarized data yang bertujuan sebagai arsip dan backup data.
g.
End-User Access Tools,
dapat dikategorikan
menjadi
lima
grup
utama: data
reporting
and
query tools,
application development tools,
executive
information systems (EIS) tools, online analytical processing (OLAP) tools and
data mining tools.
h.
Detailed Data, Meta-data, Lightly and Hightly Summarized Data, untuk
komponen ini sudah dijelaskan pada bagian struktur data warehouse.
2.11 Aliran Data Pada Data Warehouse
Menurut Connolly dan Begg (2002, p1057), Data warehouse memfokuskan pada
manajemen dari
lima
aliran
data
utama
yaitu
inflow,
upflow, downflow,
outflow, dan
meta-flow. Proses yang berasosiasi dengan setiap aliran data, yaitu:
a. Inflow:
Proses
yang
berhubungan
dengan
pengekstrakan
(extraction),
pembersihan (cleansing), dan pemuatan (loading) data dari sistem sumber ke
dalam data warehouse.
b. Upflow: Proses yang berhubungan dengan penambahan
nilai dari data dalam
data warehouse melalui peringkasan (summarizing), pengemasan (packaging),
dan pendistribusian data.
c.
Downflow: Proses yang berhubungan dengan pengarsipan (archiving)
dan
pembuatan cadangan (back-up) data dalam data warehouse.
|
![]() 16
d. Outflow: Proses yang berhubungan dengan pengadaan data agar tersedia bagi
end-user.
e. Meta-flow: Proses yang berhubungan dengan manajemen dari metadata.
Gambar 2.4 Gambar Aliran Data warehouse (Connolly dan Begg , 2002, p1058)
2.12 Keuntungan Data warehouse
Menurut Connolly dan Begg (2002, p1048), pengimplementasian yang sukses dari
sebuah data warehouse dapat memberikan keuntungan besar bagi perusahaan, yaitu:
1. Keuntungan potensial yang besar dalam investasi.
Suatu
organisasi
harus
memiliki
sumber
daya
dalam jumlah
besar
untuk
memastikan kesuksesan pengimplementasian data warehouse dan jumlah biaya
yang dikeluarkan bervariasi
besarnya tergantung dari solusi teknis yang
|
17
tersedia. Tetapi investasi dalam data warehouse dapat memberikan keuntungan
yang besar setelah pengimplementasiannya.
2. Keuntungan yang kompetitif
Keuntungan kompetitif didapatkan dengan memperbolehkan para pengambil
keputusan untuk mengakses data yang dapat mengungkapkan data-data yang
sebelumnya tidak tersedia, tidak diketahui dan informasi yang tidak tercatat.
3. Meningkatnya produktivitas dari pengambil keputusan perusahaan
Dengan
mentransformasikan
data menjadi
informasi
yang
berarti, data
warehouse memungkinkan para
manajer bisnis melakukan analisa
yang
lebih
konsisten,
akurat
dan
substantive
sehingga
terjadi
peningkatan
produktivitas
dari pengambilan keputusan perusahaan.
Menurut Mallach (2000,p182), kerugian dari penerapan data warehouse yaitu :
Terdapat beban tambahan pada sistem pusat karena perlunya melakukan transfer
data diantara dua sistem (sistem operasional dan data warehouse) untuk menjaga
data tetap update.
Harus mempunyai karyawan yang mengerti kedua sistem tersebut.
User yang mengakses kedua sistem memerlukan dua tipe terminal.
Transfer data dari sistem operasional kedata warehouse memerlukan waktu yang
relatif
lama.
2.13 Data Mart
Menurut Connoly
(2002, p 1067), data mart adalah bentuk atau versi yang lebih
kecil dari data warehouse, biasanya mengandung data yang berhubungan dengan sebuah
|
18
area fungsional dari perusahaan atau memiliki lingkup yang terbatas. Berikut
karakteristik yang membedakan antara data mart dengan data warehouse:
a. Data mart berfokus pada kebutuhan pengguna yang berhubungan dengan satu
bagian departemen atau fungsi bisnis.
b. Data mart tidak berisi data operasional yang bersifat detail.
c. Data mart lebih mudah dimengerti dan digunakan karena berisi data yang lebih
sedikit dari data warehouse.
2.14 Teori Permodelan Data warehouse
Untuk
pemodelan data warehouse, lebih digunakan teknik pemodelan
dimensional. Dengan teknik ini, dapat dibuat tabel fakta, tabel dimensi, dan membangun
relasi
antara
masing-masing
tabel dimensi
dan tabel
fakta.
Ada beberapa
hasil
pemodelan tersebut, antara lain :
2.14.1 Skema Bintang (Star Schema)
Menurut Ponniah (2001, p210-216), skema bintang (star schema) adalah teknik
dasar desain data untuk data warehouse. Struktur skema bintang adalah suatu struktur
yang dapat dengan mudah dipahami dan digunakan oleh pengguna seperti yang terlihat
pada Gambar 2.5. Struktur tersebut mencerminkan bagaimana pengguna biasanya
memandang ukuran-ukuran kritis mengikuti dimensi-dimensi bisnis yang ada.
|
![]() 19
Gambar 2.5 Contoh Skema Bintang
Karakteristik dari komponen skema bintang:
1. Tabel dimensi
a. Key tabel dimensi
Key tabel dimensi
merupakan
primary
key dari
tabel dimensi
yang
mengidentifikasi setiap baris dalam tabel secara unik.
b. Merupakan tabel yang lebar
Tabel dimensi memiliki jumlah kolom atau atribut yang banyak, oleh
karena itu tabel dimensi bersifat lebar.
|
20
c. Atribut berupa teks
Dalam tabel dimensi,
jarang ditemukan
nilai
numerik
untuk
perhitungan,
atribut
umumnya
berupa
teks
yang
merepresentasikan
deskripsi
tekstual
dari komponen-komponen dalam dimensi bisnis.
d. Atribut-atribut tidak berhubungan secara langsung
Sebagai contoh, ukuran paket dan merek produk tidak saling berhubungan,
namun sama-sama dapat menjadi atribut tabel dimensi produk.
e. Tidak dinormalisasi
Untuk kinerja query
yang
efisien, paling baik jika
query
mengambil dari
tabel
dimensi dan
langsung
ke
tabel
fakta tanpa
melalui
tabel
perantara
yang akan terbentuk jika tabel dimensi dinormalisasi.
f.
Kemampuan drill-down dan roll-up
Atribut-atribut
dalam tabel
dimensi
menyediakan
kemampuan
untuk
mendapatkan detail dari tingkat tinggi agregasi sampai tingkat detail
yang
rendah. Sebagai contoh, jumlah penjualan dapat dilihat berdasarkan
propinsi, lalu dapat drill-down ke kota dan kode pos atau total penjualan
berdasarkan kode pos dapat roll-up ke kota dan propinsi.
g. Terdapat beberapa hirarki
Berbagai bagian
perusahaan dapat mengelompokkan dimensi dengan cara
yang berbeda, sehingga terbentuk lebih dari 1 hirarki.
h. Jumlah record yang lebih sedikit
Tabel
dimensi
umumnya
memiliki
jumlah record atau baris yang lebih
sedikit dari tabel fakta.
|
21
2. Tabel fakta
a. Concatenated key
Baris
dalam
tabel
fakta
diidentifikasi
dengan
menggunakan
primary
key
dari
tabel-tabel
dimensi,
maka primary
key
dari
tabel
fakta
merupakan
gabungan primary key dari semua tabel dimensi.
b. Data grain
Data
grain merupakan
tingkat
detail
untuk
pengukuran. Sebagai
contoh,
jumlah pemesanan berhubungan dengan jumlah produk tertentu pada suatu
pesanan,
tanggal
tertentu,
untuk
pelanggan
spesifik
dan diperoleh
oleh
seorang perwakilan penjualan spesifik tertentu. Jika jumlah pesanan dilihat
sebagai jumlah untuk suatu produk perbulan, maka data grain-nya berbeda
dan pada tingkat yang lebih tinggi.
c. Fully additive measures
Agregasi dari fully additive measures dilaksanakan dengan penjumlahan
sederhana nilai-nilai atribut tersebut.
d. Semiadditive measures
Semiadditive measures
merupakan nilai yang tidak dapat langsung
dijumlahkan, sebagai contoh persentase keuntungan.
e. Tabel besar, tidak lebar
Tabel fakta umumnya memiliki lebih sedikit atribut daripada tabel dimensi,
namun memiliki jumlah record yang lebih banyak.
f.
Sparse data
Tabel fakta tidak perlu menyimpan record
yang nilainya null, maka tabel
fakta dapat memiliki gap.
|
22
g. Degenerate dimensions
Terdapat
elemen-elemen
data
dari
sistem operasional
yang
bukan
merupakan fakta ataupun dimensi, seperti nomor pesanan, nomor tagihan,
dan
lain-lain.
Namun
atribut-atribut
tersebut
dapat
berguna
dalam jenis
analisis
tertentu.
Sebagai
contoh, mencari
rata-rata
jumlah
produk
per
pesanan, maka produk harus dihubungkan
ke
nomor
pesanan
untuk
mendapatkan
nilai
rata-rata.
Atribut-atribut
tersebut
disebut degenerate
dimension dan disimpan sebagai atribut dari tabel fakta.
Keuntungan skema bintang:
1. Mudah dipahami pengguna
Skema
bintang
menggambarkan
dengan
jelas
bagaimana
pengguna
berpikir
dan memerlukan data untuk query dan analisa. Skema bintang menggambarkan
hubungan antar tabel sama seperti cara pengguna melihat hubungan tersebut
secara normal.
2. Mengoptimalkan navigasi
Skema bintang mengoptimalisasikan navigasi melewati database sehingga
lebih mudah dilihat. Meskipun hasil query terlihat kompleks, tetapi navigasi itu
memudahkan pengguna.
3. Paling cocok untuk pemrosesan query
Skema bintang paling cocok
untuk pemrosesan query karena skema
ini
berpusat pada query. Tanpa bergantung pada banyak dimensi dan kompleksitas
query, setiap query akan dengan
mudah dijalankan, pertama dengan memilih
|
23
baris dari table dimensi dan kemudian
menemukan baris
yang sama di tabel
fakta.
2.14.2 Skema Snowflake (Snowflake Schema)
Menurut
Ponniah
(2002,
p235),
Snowflake merupakan
variasi
lain
dari
skema
bintang dimana tabel dimensi dari skema
bintang dinormalisasi, seperti yang
digambarkan pada
Gambar
2.6.
Prinsip
dasar
dari
skema
ini
tidak jauh
berbeda dari
skema
bintang.
Dalam menormalisasi
tabel
dimensi,
ada
beberapa pilihan
yang dapat
diperhatikan, antara lain :
1. Secara parsial, lakukan normalisasi hanya beberapa tabel dimensi saja, dan
sisakan yang lain tetap utuh.
2. Secara lengkap atau parsial, lakukan normalisasi hanya pada beberapa tabel
dimensi, dan tinggalkan yang tersisa dengan utuh.
3. Secara parsial, lakukan normalisasi pada setiap tabel dimensi.
4. Secara lengkap, lakukan normalisasi pada setiap tabel dimensi.
Keuntungan dari skema snowflake:
1. Ukuran penyimpanan kecil di dalam tempat penyimpanan.
2. Struktur yang normal lebih mudah untuk di-update dan dijaga.
Kerugian dari skema snowflake :
1. Skemanya kurang intuitif / jelas dan pengguna akhir terhambat oleh
kompleksitas.
2. Sulit untuk mencari isi skema karena terlalu kompleks.
3. Performa query menurun karena adanya tambahan gabungan tabel.
|
![]() 24
Gambar 2.6 Contoh Skema Snowflake
2.15 ETL (Extract, Transform, Loading)
ETL (Extract, Transform, and Load) adalah proses-proses dalam data warehouse
yang meliputi:
1. Mengekstrak data dari sumber-sumber eksternal.
2. Mentransformasikan data ke bentuk yang sesuai dengan keperluan.
3. Memasukkan data ke target akhir, yaitu data warehouse.
ETL merupakan proses yang sangat penting, dengan ETL, data dapat dimasukkan
ke
dalam data
warehouse.
ETL
juga
dapat
digunakan
untuk
mengintegrasikan
data
dengan sistem yang sudah ada sebelumnya.
Tujuan ETL adalah mengumpulkan, menyaring, mengolah, dan menggabungkan
data-data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse.
Hasil
dari
proses
ETL
adalah dihasilkannya
data
yang
memenuhi
kriteria data
warehouse seperti data yang historis, terpadu, terangkum, statis, dan memiliki struktur
yang dirancang untuk keperluan proses analisis.
|
25
2.15.1 Extract
Langkah pertama pada proses ETL adalah mengekstrak data dari sumber-sumber
data.
Kebanyakan
proyek
data
warehouse
menggabungkan
data
dari
sumber-sumber
yang
berbeda. Sistem-sistem yang
terpisah sangat
mungkin
menggunakan
format data
yang berbeda.
Ektraksi adalah mengubah data ke dalam suatu format yang berguna untuk proses
transformasi. Pada hakekatnya proses ekstraksi adalah proses penguraian dari data yang
diekstrak untuk mendapatkan struktur atau pola data yang diharapkan. Jika struktur atau
pola
data
tidak
sesuai
dengan
harapan
maka
data
tidak
dimasukkan
ke
dalam data
warehouse.
2.15.2 Transform
Tahapan transformasi
menggunakan serangkaian aturan atau fungsi untuk
mengekstrak
data
dari
sumber dan selanjutnya akan dimasukkan ke data warehouse.
Berikut adalah hal-hal yang dapat dilakukan dalam tahapan transformasi:
1. Hanya
memilih
kolom
tertentu
saja
untuk
dimasukkan
ke
dalam data
warehouse.
2.
Menterjemahkan nilai-nilai yang berupa kode (contohnya apabila database
sumber menyimpan nilai 1 untuk laki-laki dan nilai 2 untuk perempuan, tetapi
data warehouse yang telah ada menyimpan M untuk laki-laki dan F untuk
perempuan,
ini
disebut
dengan automated
data
cleansing,
tidak
ada
pembersihan secara manual yang ditunjukkan selama proses ETL).
3. Mengkodekan
nilai-nilai ke dalam bentuk bebas (Contohnya
memetakan
Male , 1 dan Mr ke dalam M).
|
26
4. Melakukan perhitungan
nilai-nilai baru (Contohnya sale_amount = qty *
unit_price).
5. Menggabungkan data secara bersama-sama dari berbagai sumber.
6. Membuat
ringkasan
dari
sekumpulan
baris
data
(Contohnya
total
penjualan
untuk setiap toko atau setiap bagian).
7. Men-generate nilai surrogate key.
8. Transposing atau pivoting (Mengubah sekumpulan kolom menjadi sekumpulan
baris atau sebaliknya).
9.
Memisahkan sebuah
kolom menjadi berbagai kolom (Contohnya
meletakkan
sebuah comma-separated list yang dispesifikasikan sebagai sebuah string
dalam satu kolom sebagai nilai yang tersendiri dalam kolom yang berbeda).
10. Menggunakan berbagai bentuk validasi data baik yang sederhana maupun
kompleks.
2.15.3 Loading
Fase
load
merupakan
tahapan yang berfungsi untuk
memasukkan
data
ke
dalam
target akhir, yang biasanya ke dalam suatu
data warehouse. Jangka waktu proses ini
tergantung
pada kebutuhan
organisasi.
Beberapa data
warehouse dapat
setiap
minggu
menulis keseluruhan informasi yang ada secara kumulatif, data diubah, sementara data
warehouse yang lain (atau bagian lain dari data warehouse
yang sama) dapat
menambahkan data baru dalam suatu bentuk yang historikal, contohnya setiap jam.
Waktu dan jangkauan untuk mengganti atau menambah data tergantung dari
perancangan data warehouse pada waktu menganalisis keperluan informasi.
|
27
Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam
skema
database
sebagai
suatu trigger
yang
diaktifkan
pada
waktu
me-load
data
(Contohnya uniqueness, referential integrity, mandatory fields), yang juga berkontribusi
untuk keseluruhan performance dan kualitas data dari proses ETL.
Masalah-masalah yang terjadi dalam ETL adalah sumber-sumber data umumnya
sangat bervariasi diantaranya:
1. Platform mesin dan operating system yang berlainan.
2. Mungkin melibatkan sistem kuno dengan teknologi basis data yang sudah
ketinggalan zaman.
3. Kualitas data yang berbeda-beda.
4. Aplikasi sumber data mungkin menggunakan nilai data (representasi) internal
yang sulit dimengerti.
|
![]() 28
Gambar 2.7 Extract, Transform, Loading (ETL)
|