Start Back Next End
  
13
Missing Values: Banyak tuple
yang tidak memiliki nilai yang tercatat
ke dalam atribut. Cara mengatasi missing values:
1.
Abaikan tuple
: dilakukan ketika label kelas hilang. Metode ini
sangat tidak efektif , kecuali
tuple berisi beberapa atribut dengan
nilai-nilai yang hilang. Dengan mengabaikan tuple,
memungkinkan untuk tidak menggunakan nilai-nilai atribut yang
tersisa dalam tuple.
2.
Isikan nilai yang hilang secara manual : Secara umum, pendekatan
ini memakan waktu dan mungkin tidak layak diberi dataset yang
besar dengan banyak nilai-nilai yang hilang
3.
Gunakan konstan global untuk mengisi nilai yang hilang: Ganti
semua nilai atribut yang hilang dengan konstanta yang sama
seperti label "Unknown". 
4.
Gunakan ukuran tendensi sentral untuk atribut (misalnya , rata-
rata atau median ) untuk mengisi nilai yang hilang.
5.
Gunakan atribut berarti atau rata-rata untuk semua sampel milik
kelas yang sama seperti tuple yang diberikan.
6.
Gunakan nilai yang paling mungkin untuk mengisi nilai yang
hilang: dapat ditentukan dengan regresi, alat berbasis inferensi
menggunakan formalisme Bayesian atau decision tree.
Noisy Data: Noise
adalah kesalahan
acak atau varian dalam variabel
yang diukur. Cara mengatasi Noisy Data:
1.
Binning: pertama-tama melakukan pengurutan data dan partisi ke
dalam  (frekuensi yang sama) suatu tempat.
2.
Regression: menghaluskan dengan mencocokkan data ke dalam
fungsi regresi.
3.
Outlier Analysis: Mendeteksi dan menghapus outlier.
Data Cleaning as a Process: Melakukan deteksi perbedaan data
menggunakan metadata (domain, range, ketergantungan, distribusi),
mendeteksi bagian overloading, mendeteksi uniqueness rule, consecutive rule
dan null, menggunakan komersial tools. Data migrasi dan integrasi:
memungkinkan transformasi yang ditentukan dengan data migrasi tools
dan
memungkinkan pengguna untuk menentukan transformasi melalui pengguna
grafis dengan ETL tools. Integrasi dari dua proses:  Iterative dan Interactive.
Word to PDF Converter | Word to HTML Converter