2013100500SIBab2001

BAB 2

LANDASAN TEORI

2.1

Pengertian Data Mining

Menurut Han dan Kamber (2011, p36), data mining

adalah proses

menemukan pola yang menarik dan pengetahuan dari data yang berjumlah besar.

Sedangkan menurut Linoff dan Berry (2011, p7) Data mining adalah suatu pencarian

dan analisa dari jumlah data yang sangat besar dan bertujuan untuk mencari arti dari

pola dan aturan. Lalu menurut Connolly dan Begg,(2010), Data mining adalah suatu

proses ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun

dapat dipahami dan berguna dari database

yang besar serta digunakan untuk

membuat suatu keputusan bisnis yang sangat penting. Dan menurut Vercellis (2009,

p77), Data mining adalah aktivitas yang menggambarkan sebuah proses analisis yang

terjadi secara iteratif pada database

yang besar, dengan tujuan mengekstrak

informasi dan knowledge

yang akurat dan berpotensial berguna untuk knowledge

workers yang berhubungan dengan pengambilan keputusan dan pemecahan masalah.

Dari beberapa teori yang dijabarkan oleh para ahli diatas, bahwa Data mining

adalah suatu pencarian dan analisa pada suatu koleksi data (database)

yang sangat

besar sehingga ditemukan suatu pola yang menarik

dengan tujuan mengekstrak

informasi dan knowledge yang akurat dan berpotensial, serta dapat dipahami dan

berguna dari database

yang besar serta digunakan untuk membuat suatu keputusan

bisnis yang sangat penting.

Menurut Han dan Kamber, (2011, p24), secara garis besar data mining dapat

dikelompokkan menjadi 2 kategori utama, yaitu:

Predictive

Predictive merupakan proses untuk menemukan pola dari data dengan

menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat

dalam predictive mining adalah klasifikasi. Tujuan dari tugas prediktif adalah untuk

memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain.

Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas,

sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai

explanatory atau variable bebas.

Contohnya, perusahaan retail

dapat menggunakan

data mining untuk memprediksikan penjualan dari produk mereka di masa depan

dengan menggunakan data-data yang telah didapatkan dari beberapa minggu.

Descriptive

dalam data mining merupakan proses untuk menemukan

karakteristik penting dari data dalam suatu basis data. Tujuan dari tugas deskriptif

adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali)

yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif

sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing

untuk validasi dan penjelasan hasil.

Menurut Hoffer, Ramesh & Topi (2012), tujuan dari adanya data mining adalah:

explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu

kondisi.

confirmatory, yaitu untuk mengkonfirmasi suatu hipotesis yang telah ada.

exploratory, yaitu untuk menganalisis data baru suatu relasi yang janggal.

Karakteristik data Mining menurut Turban (2007, p230):

Seringnya data terpendam dalam

database

yang sangat besar dan kadang

datanya sudah bertahun-tahun.

Lingkungan data mining biasanya berupa arsitektur client-server

atau

arsitektur system informasi berbasis web.

Tool baru yang canggih, termasuk tool visualisasi tambahan, membantu

menghilangkan lapisan informasi yang terpendam dalam file-file

yang

berhubungan atau record-record arsip publik.

Pemilik biasanya seorang end user,

didukung dengan data drill dan tool

penguasaan query yang lain untuk menanyakan pertanyaan dan

mendapatkan jawaban secepatnya, dengan sedikit atau tidak ada

kemampuan pemrograman.

Tool data mining dengan kesediannya dikombinasikan dengan spreadsheet

dan tool software pengembangan yang lainnya.

Karena besarnya jumlah data dan usaha pencarian yang besar-besaran,

kadang-kadang diperlukan penggunaan proses parallel untuk data mining.

Kelebihan Data Mining sebagai alat analisis :

Data mining mampu menangani data dalam jumlah besar dan kompleks.

Data mining dapat menangani data dengan berbagai macam tipe atribut.

Data mining

mampu mencari dan mengolah data secara semi otomatis.

Disebut semi otomatis karena dalam beberapa teknik data mining,

diperlukan parameter yang harus di-input oleh user secara manual.

Data mining dapat menggunakan pengalaman ataupun kesalahan terdahulu

untuk meningkatkan kualitas dan hasil analisa sehingga mendapat hasil

yang terbaik.

2.2

Fungsi Data Mining

Menurut Maclennan, Tang, & Crivat (2009, p6). Berikut adalah fungsi data

mining secara umum :

Classification

Classification adalah proses untuk mencari

model atau fungsi yang

menggambarkan dan membedakan kelas-kelas atau konsep data. Fungsi dari

Classification

adalah untuk mengklasifikasikan suatu target class

ke dalam

kategori yang dipilih.

Gambar 2.1 Classification - Decision Tree

Sumber: (Maclennan, Tang, & Crivat, 2009, p7)

Decision tree

adalah sebuah flowchart yang menyerupai struktur

pohon, dimana tiap node

menunjukkan sebuah test

dari nilai atribut, tiap

cabang merepresentasikan sebuah hasil dari test,

dan decision tree

merepresantasikan kelas-kelas atau distribusi kelas. Decision trees

dapat

dengan mudah di konversi ke aturan klasifikasi.

Neural network ketika digunakan untuk klasifikasi, biasanya koleksi

dari neuron seperti unit pengolahan dengan pertimbangan koneksi antara tiap

unit. Ada banyak

metode untuk membangun model klasifikasi seperti naïve-

bayesian classification, support vector machine (SVM)

dan k-nearest

neighbor classication.

Clustering

Fungsi dari clustering adalah untuk mencari pengelompokkan atribut

ke dalam segmentasi-segmentasi berdasarkan similaritas.

Gambar 2.2 Clustering

Sumber: (Maclennan, Tang, & Crivat, 2009, p7)

Association

Fungsi dari association

adalah untuk mencari keterkaitan antara

atribut atau item set, berdasarkan jumlah item

yang muncul dan rule

association yang ada.

Gambar 2.3 Product Association

Sumber: (Maclennan, Tang, & Crivat, 2009, p7)

Regression

Fungsi dari regression hampir sama dengan klasifikasi. Fungsi dari

regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada.

Forecasting

Fungsi dari forecasting

adalah untuk peramalan waktu yang akan

datang berdasarkan trend yang telah terjadi di waktu sebelumnya.

Gambar 2.4 Time Series

Sumber: (Maclennan, Tang, & Crivat, 2009, p8)

Sequence Analysis

Fungsi dari sequence analysis

adalah untuk mencari pola urutan dari

rangkaian kejadian.

Gambar 2.5 Web Navigation Sequence

Sumber: (Maclennan, Tang, & Crivat, 2009, p9)

Deviation Analysis

Fungsi dari deviation analysis

adalah untuk mencari kejadian langka

yang sangat berbeda dari keadaan normal (kejadian abnormal).

2.3

Data Preprocessing

Menurut Han dan Kamber (2011, p83), Tahapan Data Preprocessing terbagi

menjadi:

2.3.1

Data Preprocessing : An Overview

Pada bagian ini menyajikan gambaran dari data preprocessing. Pada

bagian data quality, mengilustrasikan banyak unsur yang menentukan

kualitas data. Ini memberikan insentif balik bagi Data preprocessing

dan

selanjutnya menguraikan tugas utama dalam data preprocessing .

Data Quality: Data memiliki kualitas jika data tersebut memenuhi

persyaratan

dari penggunaan yang data yang dimaksudkan. Faktor-faktor

yang terdiri dari kualitas data seperti akurasi, kelengkapan, konsistensi,

ketepatan waktu, kepercayaan, dan interpretability. Banyak alasan yang

memungkinkan untuk data yang tidak akurat (yaitu, memiliki nilai atribut

yang salah). Kesalahan dalam transmisi data juga dapat terjadi. Kualitas data

tergantung pada tujuan penggunaan data. Ketepatan waktu juga

mempengaruhi kualitas data.

Major Tasks in Data Preprocessing: Langkah-langkah utama yang

terlibat dalam preprocessing

data, yaitu data pembersihan, integrasi data,

reduksi data, dan transformasi data. Pembersihan data bekerja untuk

"membersihkan" data dengan mengisi nilai-nilai yang hilang, smoothing

noisy

data, mengidentifikasi atau menghapus outlier, dan menyelesaikan

inkonsistensi . Langkah pre-processing

yang berguna adalah menjalankan

data dengan pembersihan data.

Gambar 2.6 Bentuk Data preprocessing

Sumber: Han dan Kamber, 2011, p87

2.3.2

Data Cleaning

Pembersihan data (atau data cleansing)

ber-upaya untuk mengisi

nilai-nilai yang hilang, menghaluskan noisy data, mengidentifikasi outlier

dan inkonsistensi yang benar dalam data.

Missing Values: Banyak tuple

yang tidak memiliki nilai yang tercatat

ke dalam atribut. Cara mengatasi missing values:

Abaikan tuple

: dilakukan ketika label kelas hilang. Metode ini

sangat tidak efektif , kecuali tuple berisi beberapa atribut dengan

nilai-nilai yang hilang. Dengan mengabaikan tuple,

memungkinkan untuk tidak menggunakan nilai-nilai atribut yang

tersisa dalam tuple.

Isikan nilai yang hilang secara manual : Secara umum, pendekatan

ini memakan waktu dan mungkin tidak layak diberi dataset yang

besar dengan banyak nilai-nilai yang hilang

Gunakan konstan global untuk mengisi nilai yang hilang: Ganti

semua nilai atribut yang hilang dengan konstanta yang sama

seperti label "Unknown".

Gunakan ukuran tendensi sentral untuk atribut (misalnya , rata-

rata atau median ) untuk mengisi nilai yang hilang.

Gunakan atribut berarti atau rata-rata untuk semua sampel milik

kelas yang sama seperti tuple yang diberikan.

Gunakan nilai yang paling mungkin untuk mengisi nilai yang

hilang: dapat ditentukan dengan regresi, alat berbasis inferensi

menggunakan formalisme Bayesian atau decision tree.

Noisy Data: Noise adalah kesalahan

acak atau varian dalam variabel

yang diukur. Cara mengatasi Noisy Data:

Binning: pertama-tama melakukan pengurutan data dan partisi ke

dalam (frekuensi yang sama) suatu tempat.

Regression: menghaluskan dengan mencocokkan data ke dalam

fungsi regresi.

Outlier Analysis: Mendeteksi dan menghapus outlier.

Data Cleaning as a Process: Melakukan deteksi perbedaan data

menggunakan metadata (domain, range, ketergantungan, distribusi),

mendeteksi bagian overloading, mendeteksi uniqueness rule, consecutive rule

dan null, menggunakan komersial tools. Data migrasi dan integrasi:

memungkinkan transformasi yang ditentukan dengan data migrasi tools dan

memungkinkan pengguna untuk menentukan transformasi melalui pengguna

grafis dengan ETL tools. Integrasi dari dua proses: Iterative dan Interactive.

2.3.3

Data Integration

Integrasi data merupakan penggabungan data dari berbagai database

ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data

mining

tidak hanya berasal dari satu database

tetapi juga berasal

dari

beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut

yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis

produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara

cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang

menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai

contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan

produk dari kategori yang berbeda maka akan didapatkan korelasi antar

produk yang sebenarnya tidak ada.

2.3.4

Data Reduction

berguna untuk mendapatkan pengurangan

representasi dari kumpulan data yang jauh lebih kecil di dalam volume tetapi

belum menghasilkan hasil yang sama (atau hampir sama) dari suatu hasil

analisis.

Teknik dalam Data Reduction:

Strategi dimensionality reduction pengurangan data meliputi

dimensionality reduction, numerosity reduction, dan kompresi

data.

Wavelet Transform: Data ditransformasikan ke jarak relatif antara

obyek pada berbagai tingkat resolusi.

Principal component Analysis

Attribute Subset Reduction

Regression dan Log linear models

Histogram

Clustering

Sampling

Data cube Agreggation

2.3.5

Data Transformation and Data Discretization

Dalam Data Transformation

dan Data Discretization, data diubah

atau dikonsolidasikan sehingga proses mining yang dihasilkan mungkin lebih

efisien, dan pola yang ditemukan mungkin lebih mudah untuk dipahami.

Strategi Data Transformation:

Smoothing, yang bekerja untuk menghilangkan noise

dari dana

data.

Atribut konstruksi (konstruksi atau fitur), di mana atribut baru

dibangun dan ditambahkan oleh himpunan atribut untuk

membantu proses mining.

Agregasi, dimana ringkasan atau agregasi operasi diterapkan pada

data.

Normalisasi, dimana data atribut adalah skala sehingga jatuh

dalam kisaran yang lebih kecil.

Discretization,

dimana nilai-nilai baku dari atribut numerik

(misalnya , usia) akan diganti dengan label Interval (misalnya , 0-

10 , 11-20 , dll) atau label konseptual (misalnya , remaja , dewasa

,senior).

Generasi hirarki konsep untuk data nominal , di mana atribut dapat

digeneralisasi untuk konsep-tingkat yang lebih tinggi , seperti kota

atau negara.

2.4

Teknik Data Mining

Teknik data mining terbagi menjadi tiga, yaitu: Association Rule Mining,

Classification, Clustering dan Regretion.

2.4.1

Association Rule Mining

Menurut Olson dan Shi (2013), Association Rule Mining

merupakan

teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi

item atau untuk menemukan hubungan hal tertentu dalam suatu transaksi data

dengan hal lain di dalam transaksi, yang digunakan untuk memprediksi pola.

Sedangkan menurut Han dan Kamber (2011, p246), Association Rule Mining

terdiri dari itemset yang sering muncul. Association Rule Mining

dapat

dianalisa lebih lanjut untuk mengungkap aturan korelasi

untuk

menyampaikan korelasi statistik antara itemsets A dan B.

2.4.2

Classification

Menurut Olson dan Shi

(2013),

Klasifikasi (Classification),

metode-

metodenya

ditunjukan untuk pembelajaran

fungsi-fungsi berbeda yang

memetakan masing-masing data terpilih ke dalam salah satu dari kelompok

kelas yang telah ditetapkan sebelumya.

Menurut Han dan Kamber (2011,

327), Classification adalah proses untuk menemukan model atau fungsi yang

menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk

dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.

dasar pengukuran untuk mengukur kualitas dari penemuan teks, yaitu:

Precision: tingkat ketepatan hasil klasifikasi terhadap suatu kejadian.

Recall: tingkat keberhasilan mengenali suatu kejadian dari seluruh

kejadian yang seharusnya dikenali.

F-Measure

adalah nilai yang didapatkan dari pengukuran precision

dan

recall

antara class

hasil cluster

dengan class

sebenarnya yang terdapat

pada data masukan.

Precision dan recall bisa didapatkan dengan rumus sebagai berikut :

Gambar 2.7 : Rumus Precision dan Recall

Sumber: (Wicaksana & Widiartha, 2012)

Rumus untuk menghitung nilai F-Measure:

Gambar 2.8: Rumus F-Measure

Sumber: (Wicaksana & Widiartha, 2012)

Keterangan nya adalah ni adalah jumlah data dari kelas i yang

diharapkan sebagai hasil query, nj adalah jumlah data dari cluster

j yang

dihasilkan oleh query, dan nij adalah jumlah elemen dari kelas i yang masuk

di cluster j. Untuk mendapatkan pembobotan yang seimbang antara precision

dan recall, digunakan nilai b = 1.

Untuk mendapatkan nilai F-Measure dari

dataset

dengan jumlah data n, maka rumus yang digunakan adalah sebagai

berikut :

Gambar 2.9: Rumus F-Measure Dataset

Sumber: (Wicaksana & Widiartha, 2012)

Salah satu pengukur kinerja klasifikasi adalah tingkat akurasi. Sebuah

sistem dalam melakukan klasifikasi diharapkan dapat mengklasifikasi semua

set data dengan benar, tetapi tidak dipungkiri bahwa kinerja suatu sistem

tidak bisa 100% akurat. (Prasetyo, 2012).

Untuk menghitung akurasi digunakan formula :

Gambar 2.10 : Rumus Akurasi

Sumber: (Prasetyo,2012)

2.4.3

Clustering

Menurut Han dan Kamber (2011), Clustering

adalah proses

pengelompokkan kumpulan data menjadi beberapa kelompok sehingga objek

di dalam satu kelompok memiliki banyak kesamaan dan memiliki banyak

perbedaan dengan objek dikelompok lain. Perbedaan dan persamaannya

biasanya berdasarkan nilai atribut dari objek tersebut dan dapat juga berupa

perhitungan jarak. Clustering

sendiri juga disebut Unsupervised

Classification, karena clustering

lebih bersifat untuk dipelajari dan

diperhatikan. Cluster analysis merupakan proses partisi satu set objek data ke

dalam himpunan bagian. Setiap himpunan bagian adalah cluster, sehingga

objek yang di dalam cluster

mirip satu sama dengan yang lainnya, dan

mempunyai perbedaan dengan objek dari cluster

yang lain. Partisi tidak

dilakukan dengan manual tetapi dengan algoritma clustering. Oleh karena itu,

Clustering

sangat berguna dan bisa menemukan group

yang tidak dikenal

dalam data.

Teknik clustering

umumnya berguna untuk merepresentasikan data

secara visual, karena data dikelompokkan berdasarkan kriteria-kriteria umum.

Dari representasi target tersebut, dapat dilihat adanya kecenderungan lebih

tingginya jumlah lubang pada bagian-bagian atau kelompok-kelompok

teretentu dari target tersebut.

2.4.4

Regresi

Menurut Han dan Kamber (2011, p245), Regresi merupakan fungsi

pembelajaran yang memetakan sebuh unsur data ke sebuah variabel prediksi

bernilai nyata.

2.5

Metode Data Mining

Menurut Han dan Kamber (2011, p327), metode data mining terdiri dari:

2.5.1

Naïve Bayes

Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas

dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes.

Menurut Olson dan Delen (2008, p102) menjelaskan Naïve bayes

untuk

setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas

keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini

mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang

terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah

frekuensi dari "master"

tabel keputusan. Sedangkan menurut Han dan

Kamber (2011, p351) Proses dari The Naïve Bayesian classifier, atau Simple

Bayesian Classifier, sebagai berikut:

Variable D menjadi pelatihan set tuple dan label yang terkait dengan

kelas. Seperti biasa, setiap tuple

diwakili oleh vektor atribut n-

dimensi, X = (x1, x2, ..., xn), ini menggambarkan pengukuran n

dibuat pada tuple dari atribut n, masing-masing, A1, A2, ..., An.

Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X,

classifier

akan memprediksi X yang masuk kelompok memiliki

probabilitas posterior

tertinggi, kondisi-disebutkan pada X. Artinya,

classifier naive bayesian

memprediksi bahwa X tuple

milik kelas Ci

jika dan hanya jika :

Gambar 2.11 Rumus Classifier Naïve Bayesian (1)

Sumber: Han dan Kamber (2011, p351)

Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X)

dimaksimalkan disebut hipotesis posteriori maksimal. Dengan teorema

Bayes:

Gambar 2.12: Rumus Classifier Naïve Bayesian (2)

Sumber: Han dan Kamber (2011, p351)

Keterangan :

P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X

(Posterior probability)

P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang

paling besar (likelihood)

P(Ci) = Prior probability dari X (Prior probability)

P(X) = Jumlah probability tuple yg muncul

Ketika P (X) adalah konstan untuk semua kelas, hanya P (X | Ci) P

(Ci) butuh dimaksimalkan. Jika probabilitas kelas sebelumnya

tidak diketahui, maka umumnya diasumsikan ke dalam kelas yang

sama, yaitu, P (C1) = P (C2) = · · · = P (Cm), maka dari itu akan

memaksimalkan P (X | Ci). Jika tidak, maka akan memaksimalkan

P (X | Ci) P (Ci). Perhatikan bahwa probabilitas sebelum kelas

dapat diperkirakan oleh P (Ci) = | Ci, D | / | D |, dimana | Ci, D |

adalah jumlah tuple pelatihan kelas Ci di D.

Mengingat dataset

mempunyai banyak atribut, maka akan sangat

sulit dalam mengkomputasi untuk menghitung P(X|Ci). Agar

dapat mengurangi

perhitungan dalam mengevaluasi P(X|Ci),

asumsi naïve independensi kelas bersyarat dibuat. Dianggap

bahwa nilai-nilai dari atribut adalah kondisional independen satu

sama lain, diberikan kelas label dari tuple

(yaitu bahwa tidak ada

hubungan ketergantungan diantara atribut ) dengan demikian :

Gambar 2.13 : Rumus Classifier Naïve Bayesian (3)

Sumber: Han dan Kamber (2011, p351)

Maka dapat dengan mudah memperkirakan probabilitas P (x1 |

Ci), P (x2 | Ci),. . . , P (xn | Ci) dari pelatihan tuple.

Ingat

bahwa di sini xk mengacu pada nilai atribut Ak untuk tuple X.

Untuk setiap atribut, dilihat dari apakah atribut tersebut

kategorikal atau continuous-valued . Misalnya, untuk

menghitung P (X | Ci) mempertimbangkan hal-hal berikut:

Jika Ak adalah kategorikal, maka P (Xk | Ci) adalah

jumlah tuple kelas Ci di D memiliki nilai Xk untuk atribut

Ak, dibagi dengan | Ci, D |, jumlah tuple kelas Ci di D.

Jika Ak continuous-valued , maka perlu melakukan sedikit

lebih banyak pekerjaan, tapi perhitunganya cukup

sederhana.

Sebuah atribut continuous-valued

biasanya

diasumsikan memiliki distribusi Gaussian dengan rata-rata

µ dan standar deviasi s, didefinisikan oleh:

Gambar 2.14 : Rumus Classifier Naïve Bayesian (4)

Sumber: Han dan Kamber (2011, p351)

sehingga :

Gambar 2.15 : Rumus Classifier Naïve Bayesian (5)

Sumber: Han dan Kamber (2011, p351)

Setelah itu hitung µCi dan sCi, yang merupakan deviasi

mean

(rata-rata) dan standar masing-masing nilai atribut k

untuk tuple

pelatihan kelas Ci. Setelah itu gunakan kedua

kuantitas dalam Persamaan, bersama-sama dengan xk, untuk

memperkirakan P (xk | Ci).

Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk

setiap kelas Ci. Classifier

memprediksi kelas

label

dari

tuple

adalah kelas Ci, jika

Gambar 2.16 : Rumus Classifier Naïve Bayesian (6)

Sumber: Han dan Kamber (2011, p351)

Dengan kata lain, label kelas diprediksi adalah Ci yang mana P

(X | Ci) P (Ci) adalah maksimal.

Pengklasifikasi Bayesian

memiliki tingkat kesalahan

minimal dibandingkan dengan klasifikasi lainnya. Namun,

dalam prakteknya hal ini tidak selalu terjadi, karena

ketidakakuratan asumsi yang dibuat untuk penggunaannya,

seperti kondisi kelas independen, dan kurangnya data

probabilitas yang tersedia. Pengklasifikasi Bayesian

juga

berguna dalam memberikan pembenaran teoritis untuk

pengklasifikasi lain yang tidak secara eksplisit menggunakan

teorema Bayes.

2.5.2

Decision Tree

Menurut Han dan Kamber (2011, p332),

Decision Tree adalah

top-down pohon rekursif dari algoritma induksi, yang

menggunakan

ukuran seleksi atribut untuk memilih atribut yang diuji.

Algoritma

decision tree mencoba untuk meningkatkan akurasi

dengan

menghapus cabang-cabang pohon yang mencerminkan noise dalam

data. Decision tree merupakan salah satu teknik yang dapat digunakan

untuk

melakukan klasifikasi terhadap sekumpulan objek atau record.

Teknik ini terdiri dari

kumpulan decision node, dihubungkan oleh

cabang, bergerak ke bawah dari root node

sampai berakhir di leaf

node (Yusuf, 2009).

Decision Tree

adalah sistem pendukung

keputusan

yang berupa pohon grafik

keputusan.

Decision Tree

digunakan untuk belajar classification

function

yang menyimpulkan

nilai atribut dependen (variabel). (Girja, Bhargava & Mathuria, 2013)

Entropy

Entropy "digunakan dalam proses ini. Entropy

adalah

ukuran dari gangguan (disorder) data. Entropy diukur dalam

bit. Ini

juga disebut pengukuran ketidakpastian dalam setiap

variabel acak. (Girja, Bhargava & Mathuria, 2013)

Gambar 2.17 : Rumus Entropy

Sumber: (Girja, Bhargava & Mathuria, 2013)

Information Gain

Informasi Gain

adalah untuk mengukur input dan

output diantara asosiasi. (Girja, Bhargava & Mathuria, 2013)

Gambar 2.18 : Rumus Information Gain

Sumber: (Girja, Bhargava & Mathuria, 2013)

Confusion Matrix

Confusion Matrix berisi informasi aktual dan klasifikasi

prediksi dilakukan dengan sistem klasifikasi. Kinerja sistem

nya menggunakan data dalam matriks.

(Girja, Bhargava &

Mathuria, 2013)

Confidence

adalah ukuran yang menilai tingkat

kepastian asosiasi terdeteksi, ini diambil sebagai probabilitas

bersyarat P (Y | X), yaitu probabilitas bahwa transaksi yang

mengandung X juga Berisi Y (Han dan Kamber,2011,p21).

Support

adalah ukuran yang mewakili persentase

transaksi dari database

transaksi yang diberikan aturan yang

memuaskan, ini diambil untuk menjadi P probabilitas (XUY),

di mana XUY menunjukkan bahwa transaksi berisi baik X dan

Y, yaitu sekumpulan itemset

X dan Y. (Han dan

Kamber,2011,p21)

2.5.3

K-Means

Menurut Aryan (2010) K-Means merupakan algoritma yang

umum digunakan untuk clustering dokumen. Prinsip utama K-Means

adalah menyusun k prototype

atau pusat massa (centroid) dari

sekumpulan data berdimensi n. Sebelum diterapkan proses algoritma

K-means, dokumen akan di preprocessing terlebih dahulu. Kemudian

dokumen direpresentasikan sebagai vektor

yang memiliki term

dengan nilai tertentu. Sedangkan menurut Chen yu (2010), K-Means

merupakan algoritma untuk cluster

n objek berdasarkan atribut

menjadi k partisi, dimana k < n.

Dari teori-teori yang dijabarkan oleh para ahli diatas, bahwa

K-means

merupakan salah satu metode data clustering non hirarki

untuk clustering dokumen yang berusaha mempartisi data yang ada ke

dalam bentuk satu atau lebih cluster/kelompok

berdasarkan atribut

menjadi k partisi, dimana k < n.

Algoritma K-means

Menurut Widyawati, (2010), Algoritma k-means

merupakan algoritma yang membutuhkan parameter input

sebanyak k dan membagi sekumpulan n objek kedalam k cluster

sehingga tingkat kemiripan antar anggota dalam satu cluster tinggi

sedangkan tingkat kemiripan dengan anggota pada cluster

lain

sangat rendah. Kemiripan anggota terhadap cluster diukur dengan

kedekatan objek terhadap nilai mean

pada cluster

atau dapat

disebut sebagai centroid cluster atau pusat massa.

Menurut Kantardzic (2009), teknik data mining

yang

paling umum, antara lain:

Metode statistika klasik yaitu linier, quadratic dan

logistic

discriminate analyses.

Teknik statistika modern

yaitu projection pursuit

classification, density estimation, k-nearest neighbor,

Bayesian networks.

Artificial Neural Network (ANN), yaitu model matematis yang

meniru atau mensimulasikan struktur dan aspek fungsi dari

jaringan saraf biologis.

Support Vector Machine (SVM), yaitu rangkaian metode

supervised learning

yang digunakan untuk klasifikasi dan

regresi.

Decision Trees (DT), yaitu

tool pendukung suatu

keputusan yang menggunakan grafik seperti pohon atau

model keputusan yang terdiri dari konsekuensi-konsekuensi.

Association Rules (AR), yaitu suatu metode riset untuk

menemukan hubungan yang menarik antar variabel dalam

suatu database yang besar.

Case Based Reasoning (CBS), yaitu proses untuk

memecahkan suatu masalah baru berdasarkan solusi dari

masalah-masalah masa lalu yang mirip.

Fuzzy Logic System (FLS),

yaitu sebuah bentuk dari logika

nilai ganda yang terkait dengan kesimpulan dari suatu alasan

(reasoning) secara pendekatan. Logika fuzzy mempunyai nilai

kebenaran diantara 0 dan 1.

Genetic Algorithms (GA), yaitu algoritma pencarian heuristic

yang meniru proses evolusi alam (genetika), untuk

mendapatkan solusi yang optimum.

Semakin meningkatnya kompleksitas dari sistem, maka beberapa

teknik data mining digunakan secara bersama-sama dalam suatu penelitian.

Menurut Paton & Amazouz (2009), beberapa peneliti menggunakan

gabungan teknik data mining

untuk mendapatkan kelebihan dari masing-

masing teknik diantaranya :

Hall Barbosa et al (2009) menggunakan Bayesian Neural Network untuk

memprediksi kualitas dari produk destilasi untuk REPAR refinery di

Brazil.

Zhou (2009) mengembangkan model NN untuk memonitor proses,

deteksi kegagalan (fault)

dan skema klasifikasi pada batch

reaktor

polimerisasi dalam proses produksi polymethylmethacrylate. Feedforward

NN digunakan untuk memodelkan proses dan radial basis function (RBF)

NN digunakan untuk klasifikasi. Zhou menggunakan regresi polynomial

untuk mereduksi dimensi dari model NN.

Zamprogna et al (2010) mengembangkan model berdasarkan PCA dan

Partial Least Squares (PLS) untuk memonitor proses dan untuk

mendeteksi ubnormality

pada proses penuangan logam (steel casting).

PCA/PLS digunakan untuk mengidentifikasi korelasi data dalam kondisi

normal. Model memberikan pemahaman yang mendalam mengenai

interaksi antar parameter proses sehingga dapat digunakan untuk

mendeteksi kegagalan (ubnormality) di dalam proses.

Ahvenlamp et al (2010) menggunakan kombinasi NN dan fuzzy logic

untuk memprediksi nomor Kappa dan untuk memonitor perubahan

di dalam variabel proses, untuk mendeteksi kegagalan dan untuk maksud

klasifikasi. Dilaporkan bahwa kombinasi ini mempunyai performa

prediksi yang baik dan dapat mendeteksi perilaku abnormal

bahkan

ketika deviasinya kecil.

2.6

Framework Data Mining

Beberapa framework penerapan data mining telah dikembangkan berdasarkan

proses bisnis industri dan bisnis. Framework tersebut dikembangkan karena kegiatan

data mining

semakin kompleks dengan melibatkan banyak data, kepakaran yang

bervariasi ataupun lingkungan bisnis yang beragam. Karena itu, frameworks data

mining

diharapkan dapat dijadikan sebagai panduan untuk proses koleksi data,

analisis, diseminasi hasil data mining dan pengembangan dari penerapan data mining

tersebut. Beberapa framework yang berkembang saat ini adalah:

CRISP (Cross Industrial Standard Process for Data Mining). Framework

ini diusulkan oleh konsorsium Uni Eropa. Secara umum CRISP terdiri

dari tahapan pemahaman pada proses bisnis dan data, persiapan data,

pemodelan, evaluasi dan penerapan.

DMAIC (Define-Measure-Analyze-Improve-Control).

Framework

ini

berdasarkan pada metodologi Six-Sigma

yang ditujukan untuk

mengeliminasi cacat, pemborosan, berorientasi pada pengendalian

kualitas dalam kegiatan manufaktur, industri jasa, manajemen dan

aktivitas lainnya.

SEMMA (Sample-Explore-Modify-Model-Assess).

Framework

ini

dikembangkan oleh SAS (Statistical Analysis Sistem) Institute.

Framework ini mempunyai tahapan yang mirip dengan Six-Sigma.

2.7

WEKA

WEKA merupakan API Java yang menyediakan API untuk pengolahan

dalam data mining yang berbasis open source (GPL) dan berengine JAVA. WEKA

dikembagkan oleh Universitas Waikato di Selandia Baru dan juga merupakan

perangkat lunak gratis yang tersedia dibawah GNU (General Public License).

WEKA menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan

dengan algoritma J48. Teknik yang digunakan WEKA adalah classifier.

Menurut situs resmi WEKA (Waikato Environment for Knowledge Analysis),

“WEKA is a collection of machine learning algorithms for data mining tasks. The

algorithms can either be applied directly to a dataset or called from your own Java

code. Weka contains

tools for data pre-processing, classification, regression,

clustering, association rules, and visualization. It is also well-suited for developing

new machine learning schemes.”

The Waikato Environment for Knowledge Analysis (Weka) adalah rangkaian

lengkap perpustakaan kelas Java yang mengimplementasikan banyak state-of-the-art

pembelajaran mesin dan algoritma data mining. Weka tersedia secara bebas di World

Wide Web dan menyertai teks baru pada dokumen data mining dan sepenuhnya

menjelaskan semua algoritma yang dikandungnya. Aplikasi yang ditulis

menggunakan library class pada Weka

yang

dapat dijalankan pada komputer

manapun dengan kemampuan browsing Web, ini memungkinkan pengguna untuk

menerapkan teknik pembelajaran mesin untuk data mereka sendiri terlepas dari

platform komputer. (Witten, Frank & Hall, 2011)

Gambar 2.19 : Tampilan Awal GUI WEKA

Sumber: www.cs.waikato.ac.nz/ml/weka/

WEKA mulai dikembangkan sejak tahun 1994 dan telah menjadi software data

mining open source yang paling popular. WEKA mempunyai kelebihan seperti

mempunyai banyak algoritma data mining dan machine learning, kemudahan dalam

penggunaannya, selalu up-to-date dengan algoritma-algoritma yang baru. Software

WEKA tidak hanya digunakan untuk akademik saja namun cukup banyak dipakai

oleh perusahaan untuk meramalkan bisnis dari suatu perusahaan. Ian H. Witten

merupakan latar belakang dibalik kesuksesan WEKA. Beliau merupakan profesor di

Universitas of Waikato, New Zealend, yang menekuni Digital Library, Text Mining,

Machine Learning dan

Information Retrieval. Pada Weka ada beberapa metode

pemilihan variable

dari suatu dataset,

diantaranya BestFirst, ExhautiveSearch,

FCBFSearch, GeneticSearch, GreedyStepwise,

RaceSearch, RandomSearch,

Rankerdan,

RankerSearch.

Metode atau Teknik yang digunakan Weka adalah

Predictive

dan Descriptive

karena Weka mendukung teknik-teknik data

preprocessing, clustering, classification, regression, visualization, dan

feature

Reduction. Semua teknik Weka adalah didasarkan pada asumsi bahwa data tersedia

sebagai flat file

tungggal atau hubungan, dimana setiap titik data digambarkan oleh

sejumlah tetap atribut (biasanya, atribut numeric atau nominal, tetapi beberapa jenis

atribut lain juga didukung).

2.7.1

Format Input WEKA

WEKA mendukung beberapa format file untuk inputnya, yaitu:

Comma Separated Values

(CSV): Merupakan file

teks dengan

pemisah tanda koma (,) yang cukup umum digunakan. File ini

dapat dibuat dengan menggunakan Microsoft Excel atau membuat

sendiri dengan menggunakan notepad.

Format

C45: Merupakan format file

yang dapat diakses dengan

menggunakan aplikasi WEKA.

Attribute-Relation File Format (ARFF): Merupakan tipe file teks

yang berisi berbagai

instance

data yang berhubungan dengan

suatu set atribut data yang dideskripsikan serta di dalam file

tersebut.

SQL Server/MySql Server: Dapat mengakses database

dengan

menggunakan SQL Server/MySql Server.

2.7.2

Algoritma J48 pada WEKA

J48 merupakan implementasi C4.5 pada WEKA.

J48

menangani

himpunan data dalam format ARFF, tidak mengandung kode untuk

mengkonstruksi pohon keputusan. Kelas ini mereferensi kelas-kelas lain,

kebanyakan pada paket Weka. Classifiers J48, yang mengerjakan semua

proses konstruksi pohon.Adapun kelebihan C4.5 antara lain:

C4.5 mampu menangani atribut dengan tipe diskrit atau kontinu

C4.5 mampu menangani atribut yang kosong (Missing Value)

C4.5 telah berkembang menjadi C5. C4.5 merupakan pengembangan

dari ID3 (Iterative Dichotomiser 3).

ID3 merupakan algoritma yang

dipergunakan untuk membuat sebuah decision tree

atau pohon keputusan.

Algoritma ID3 ditemukan oleh J. Ross Quinlan, dengan memanfaatkan teori

informasi milik Shanon. Idenya adalah membuat pohon dengan percabangan

awal yang dapat membagi antara iya dan tidak. Pada WEKA ada pilihan

untuk menggunakan ID3 dengan nama yang sama dan atributnya harus

bertipe nominal dan tidak boleh terdapat atribut yang kosong.

2.7.3

Algoritma Naive Bayes pada WEKA

Proses klasifikasi (classify) menggunakan metode Naïve Bayesian

Classifier

(dalam software Weka disebut sebagai metode NaïveBayes).

WEKA dapat digunakan sebagai perangkat lunak pembelajaran mesin untuk

menghasilkan dan model uji Naive Bayes secara otomatis. Kelas untuk Naive

Bayes classifier

menggunakan kelas estimator. Nilai estimator presisi

Numeric

dipilih berdasarkan analisis data training. Classifier

ini akan

menggunakan presisi default 0,1 untuk atribut numerik ketika buildClassifier

disebut dengan kasus tarining

nol. Naive Bayes

tidak memilih fitur penting.

Hasil dari training Naive Bayes classifier

adalah mean

dan varians untuk

setiap fitur. Klasifikasi sampel baru ke 'Ya' atau 'Tidak' didasarkan pada

apakah nilai-nilai fitur dari sampel test

terbaik dengan rata-rata dan varians

dari fitur yang menjadi training baik untuk 'Ya' atau 'Tidak'.

2.7.4

Test Options WEKA

WEKA memiliki empat jenis test option, yaitu:

Use training set: Classifier

ini dilakukan dengan menggunakan

data training itu sendiri.

Supplied test set: Classifier

ini dievaluasi dengan memprediksi

seberapa baik satu set class

yang diambil dari sebuah file. Test

option

ini dilakukan dengan menggunakan data lain. Cara yang

dilakukan adalah dengan mengklik set tombol yang menampilkan

dialog yang memungkinkan untuk memilih file untuk menguji.

Cross-validation: Classifier

ini dievaluasi oleh cross-validation,

menggunakan jumlah fold yang dimasukkan ke dalam kolom teks

folds. Pada cross-validation akan ada pilihan berapa fold

yang

akan digunakan. Nilai default-nya adalah 10.

Percentage split: Classifier

ini dievaluasi dengan memprediksi

seberapa baik persentase dari data yang digunakan selama

pengujian. Jumlah data tersebut dibagi berdsarkan nilai yang

dimasukkan ke dalam field%.

2.8

Structure Query Language (SQL)

Menurut Connolly & Begg (2010, p221), Structure Query Language atau

SQL adalah non producedural language terdiri dari kata english

standar seperti

SELECT, INSERT, dan DELETE yang digunakan oleh profesional dan non-

profesional. SQL menggunakan bahasa yang standar untuk mendefinisikan dan

memanipulasi hubungan database. Sedangkan, menurut Hall (2011, p787), Structure

Query Language adalah suatu alat pengolahan data untuk pengguna dan programmer

profesional untuk mengakses data dalam basis data secara langsung tanpa

membutuhkan program konvensional.

Dari beberapa teori yang dijabarkan oleh para ahli diatas, bahwa Structure

Query Language atau SQL adalah suatu alat pengolahan data untuk pengguna dan

programmer profesional untuk mengakses data non producedural

language seperti

SELECT, INSERT, dan DELETE.

2.9

Data Warehouse

Menurut Turban (2011, p52), Data Warehouse

adalah kumpulan data yang

dibuat untuk mendukung pengambilan keputusan dan juga merupakan tempat

penyimpanan data sekarang dan lampau. Data warehouse

memiliki bentuk bentuk,

yaitu:

Functional Data Warehouse

Functional Data Warehouse dibuat lebih dari satu dan dikelompokkan

berdasarkan masing-masing fungsinya. Penerapan jenis pengumpulan data

dengan tipe ini dapat beresiko kehilangan konsistensi data diluar lingkungan

bisnis.

Centralized Data Warehouse

Centralized Data Warehouse terlihat seperti bentuk Functional Data

Warehouse,

namun seumber data terlebih dahulu dikumpulkan dan

diintegrasikan secara terpusat pada suatu tempat, dan setelah itu, data dapat

dibagi-bagi berdasarkan fungsi-fungsi yang dibutuhkan. Pada bentuk ini,

pemakai hanya dapat mengambil data dari bagian pengumpulan saja, dan

tidak secara langsung berhubungan dengan pemasok data.

Distributed Data Warehouse

memungkinkan user

untuk berhubungan

secara langsung dengan sumber data dan pusat pengumpul data lain. Pada

bentuk ini mengandalkan keunggulan dari teknologi client-server, untuk

mengambil data dari berbagai sumber.

2.10

OLTP (Online Transaction Processing)

Menurut Kimball (2010, p408), OLTP adalah gambaran pasti dari segala

aktifitas dan asosiasi sistem dengan menginput data yang dapat dipercaya ke dalam

database. OLTP menggambarkan sebuah kebutuhan sistem dalam ruang lingkup

operasional dan merupakan proses yang dapat mendukung kegiatan bisnis sehari –

hari.

Sedangkan, menurut Connolly dan Begg (2010, p1199), OLTP adalah sebuah

sistem yang telah dirancang untuk menangani pemrosesan transaksi tingkat tinggi.

Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil

kesimpulan bahwa OLTP (Online Transaction Processing),

merupakan sebuah

sistem yang telah dirancang untuk menangani pemrosesan transaksi tingkat tinggi

yang dapat mendukung kegiatan bisnis sehari – hari.

2.11

ETL (Extraction Transformation Loading)

Menurut Vercellis (2009, p53), ETL (Extraction Transformation Loading)

mengacu pada alat piranti lunak yang didedikasikan untuk melakukan ekstraksi,

transformasi, dan load data ke dalam data warehouse.

Menurut Kimball dan Ross (2010, p8) Extract-transform-load

(ETL) adalah

kumpulan dari proses dimana sumber data operational

disiapkan untuk dimasukan

kedalam data warehouse. Proses

ekstraksi

(extracting) data operational dari

sumber aplikasi, mengubah bentuknya (transform), mengeluarkan (loading) dan

membuat index dari data itu, menjamin kualitas dari data tersebut, dan menerbitkan

data tersebut.

Data Extraction

Menurut Kimball dan Ross (2010, p8), extraction adalah langkah pertama

dalam proses memasukkan data ke dalam lingkungan data warehouse.

Extracting berarti membaca dan memahami sumber data dan menyalin data

yang dibutuhkan untuk data warehouse ke dalam staging area untuk

manipulasi lebih jauh.

Data Transforming

Menurut Kimball dan Ross (2010, p8), setelah data di–ekstrak ke staging

area, ada banyak perubahan yang mungkin dilakukan, seperti cleansing data

(memperbaiki kesalahan ejaan, mengatasi konflik domain, menangani bagian

yang hilang, atau parsing ke dalam format standar), menggabungkan data dari

berbagai sumber, menghilangkan data berulang, dan memberikan warehouse

keys.

Data Loading

Menurut Kimball dan Ross (2010, p8),setelah melakukan transformasi

maka data dapat dimuat ke dalam data warehouse.

Sedangkan, menurut

Connolly dan Begg (2010, 1208), loading data ke dalam data warehouse

dapat terjadi setelah semua transformasi telah terjadi atau sebagai bagian dari

proses transformasi.

Trigger

yang akan aktif pada saat dilakukan loading

data, juga berkontribusi pada kualitas seluruh kinerja data pada proses ETL.

Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil

kesimpulan bahwa ETL (Extraction Transformation Loading) mengacu pada

alat

piranti lunak dimana sumber data operational disiapkan untuk dimasukan kedalam

data warehouse. Proses ekstraksi (extracting) data operational dari sumber aplikasi,

mengubah bentuknya (transform), mengeluarkan (loading) dan membuat index dari

data itu, menjamin kualitas dari data tersebut, dan menerbitkan data tersebut.

2.12

Star Schema

Menurut Turban (2011, p75), Skema Bintang (Star Schema) adalah sebuah

dimensional modeling yang menampilkan satu atau beberapa table

fakta yang

terhubung dengan beberapa table

dimensi, dimana table

fakta mengandung atribut

deskriptif dan table dimensi menandung klasifikasi dan kumpulan informasi tentang

nilai dari table

fakta. Sedangkan, menurut Connolly dan Begg (2010, p1227), star

schema adalah struktur logikal

yang memiliki tabel fakta yang memuat data faktual

di pusat dan dikelilingi oleh tabel dimensi yang memuat data referensi (yang dapat

didenormalisasi).

Fact table

Menurut Connolly dan Begg (2010, p1227), tabel fakta merupakan tabel

yang memiliki sebuah composite primary key dimana tabel tersebut akan

membentuk sebuah model dimensional.

Dimention Table

Menurut Connolly dan Begg (2010, p1227), tabel dimensi merupakan

sekumpulan dari tabel-tabel yang lebih kecil yang memiliki sebuah

primary key sederhana yang merespon secara benar terhadap salah satu

komponen dari composite key yang ada dari tabel fakta.

Dari beberapa teori yang dijabarkan oleh para ahli diatas, dapat diambil

kesimpulan bahwa Skema Bintang (Star Schema) adalah struktur logikal

yang

menampilkan satu atau beberapa table

fakta yang terhubung dengan beberapa table

dimensi.

2.13

Rumah Sakit

Rumah sakit adalah suatu badan usaha yang menyediakan dan memberikan

jasa pelayanan medis jangka pendek dan jangka panjang yang terdiri atas tindakan

observasi, diagnostik, terapeutik dan rehabilitative

untuk orang-orang yang

menderita sakit, terluka dan untuk yang melahirkan (World Health Organization).

Rumah sakit merupakan sarana upaya kesehatan serta dapat dimanfaatkan

untuk pendidikan tenaga kesehetan dan penelitian (permenkes no.159b/1988)

UU NO.44 tahun 2009 tentang rumah sakit, rumah sakit adalah institusi

pelayanan kesehatan yang menyelenggarakan pelayanan kesehatan perorangan secara

paripurna yang menyediakan pelayanan rawat inap, rawat jalan dan gawat darurat.

Pelayanan rumah sakit juga diatur dalam KODERSI/kode etik rumah sakit, dimana

kewajiban rumah sakit terhadap karyawan, pasien dan masyarakat diatur.

Berdasarkan Pasal 29 ayat (1) huruf f dalam UU No. 44 Tahun 2009 tentang

Rumah Sakit. Rumah Sakit sebenarnya memiliki fungsi sosial yaitu antara lain

dengan memberikan fasilitas pelayanan pasien tidak mampu/miskin, pelayanan

gawat darurat tanpa uang muka, ambulans

gratis, pelayanan korban bencana dan

kejadian luar biasa, atau bakti sosial bagi misi kemanusiaan. Pelanggaran terhadap

kewajiban tersebut bisa berakibat dijatuhkannya sanksi kepada Rumah Sakit tersebut,

termasuk sanksi pencabutan izin.

2.14

Rekam Medik

Menurut Edna K Huffman, Rekam medik adalah berkas yang menyatakan

siapa, apa, mengapa, dimana,

kapan, dan bagaimana pelayanan yang diperoleh

seorang pasien selama dirawat atau menjalani pengobatan.

Menurut Permenkes No. 79a/Menkes /Per/XII/1989, Rekam medik adalah

berkas yang berisi catatan dan dokumen mengenai identitas pasien, hasil

pemeriksaan, pengobatan, tindakan dan pelayanan lainnya yang diterima pasien pada

sarana kesehatan, baik rawat jalan maupun rawat inap.

Menurut Gemala Hatta, Rekam Medik merupakan kumpulan fakta tentang

kehidupan seseorang dan riwayat penyakitnya, termasuk keadaan sakit, pengobatan

saat ini, dan saat lampau yang ditulis oleh para praktisi kesehatan dalam upaya

mereka membiarkan pelayanan kesehatan kepada pasien.

Berdasarkan pengertian diatas rekam medik adalah suatu catatan dari setiap

orang yang melakukan pengobatan, yang berisi tentang data riwayat penyakit saati

ini dan masa lampau yang ditulis oleh praktisi kesehatan.

2.15

ICD-10

Menurut WHO (2004) ICD-10 merupakan klasifikasi statistik, yang terdiri

dari sejumlah kode alfanumerik yang satu sama lain berbeda (mutually exclusive)

menurut kategori, yang menggambarkan konsep seluruh penyakit.

Menurut WHO (2004), ICD-10 terdiri dari 3 volume yaitu:

Volume 1 berisi klasifikasi utama.

Sebagian besar buku Volume 1 terdiri dari daftar kategori3 karakter

dan daftar tabel inklusi dan subkategori 4 karakter. Inti klasifikasi adalah

daftar kategori 3 karakter yang dianjurkan untuk pelaporan ke

WHO mortality database dan perbandingan umum internasional. Daftar bab

dan judul blok juga termasuk inti klasifikasi. Daftar tabular memberikan

seluruh rincian level 4 karakter dan dibagi dalam 22 bab.

Volume 2 berisi petunjuk pemakaian ICD

Volume 3 berisi alfabet klasifikasi, dibagi dalam 3 bagian:

Bagian 1, terdiri atas indeks tentang penyakit dan luka alami.

Bagian 2, merupakan indeks

penyebab luar morbiditas dan

mortalitas, berisi seluruh term yang diklasifikasi.

Bagian 3, berisi tabel obat dan bahan kimia.

Kode utama untuk penyakit yang mendasari diberi tanda dagger (†) dan

kode tambahan untuk manifestasinya diberi tanda asterisk (*). Kode dagger adalah

kode utama dan harus selalu digunakan. Dalam coding, kode asterisk tidak bisa

digunakan sendiri