Pengertian, Definisi Dan Fungsi Data Mining
1. Database
Database (Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian
kumpulan data yang berisi secara logika, dan keterangan dari
masing-masing data yang didesain untuk mendapatkan informasi yang
dibutuhkan sebuah organisasi. Database system adalah kumpulan program
aplikasi yang berinteraksi dengan basis data bersama dengan Database
Management System (DBMS) dan basis data itu sendiri, sedangkan Database
Management System (DBMS) adalah merupakan sistem perangkat lunak yang
memungkinkan pengguna untuk mendefinisikan, membuat, memelihara dan
kontrol ke akses database.
Database (Mcleod, 2007 : 124), adalah kumpulan dari semua data berbasis komputer pada suatu perusahaan.
Dari teori-teori tersebut dapat disimpulkan bahwa Database adalah
sejumlah data yang terorganisasi dengan record dan field-nya yang
terstruktrur dan saling terhubung untuk menyediakan informasi yang
dibutuhkan oleh perusahaan.
2. Definisi Data Mining
Data mining (Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau
penggalian data yang belum diketahui sebelumnya, namun dapat dipahami
dan berguna dari database yang besar serta digunakan untuk membuat suatu
keputusan bisnis yang sangat penting.
Data mining (Segall et.all, 2008) biasa juga disebut dengan “Data atau
knowledge discovery” atau menemukan pola tersembunyi pada data. Data
mining adalah proses dari menganalisa data dari prespektif yang berbeda
dan menyimpulkannya ke dalam informasi yang berguna.
Data mining (Han dan Kamber, 2006 : 5) didefinisikan sebagai proses
mengekstrak atau menambang pengetahuan yang dibutuhkan dari sejumlah
data besar.
Pada prosesnya data mining akan mengekstrak informasi yang berharga
dengan cara menganalisis adanya pola-pola ataupun hubungan keterkaitan
tertentu dari data-data yang berukuran besar. Data mining berkaitan
dengan bidang ilmu-ilmu lain, seperti Database System, Data Warehousing,
Statistic, Machine Learning, Information Retrieval, dan Komputasi
Tingkat Tinggi. Selain itu data mining didukung oleh ilmu lain seperti
Neural Network, Pengenalan Pola, Spatial Data Analysis, Image Database,
Signal Processing.
Beberapa survey tentang proses pemodelan dan metodologi menyatakan
bahwa, “Data mining digunakan sebagai penunjuk, dimana data mining
menyajikan intisari atas sejarah, deskripsi dan sebagai standar
petunjuk mengenai masa depan dari sebuah proses model data
mining”(Mariscal, Marba’n dan Ferna’ndes, 2010)
Karakteristik data mining sebagai berikut:
a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.
b. Data mining biasa menggunakan data yang sangat besar. Biasanya data
yang besar digunakan untuk membuat hasil lebih dapat dipercaya.
c. Data mining berguna untuk membuat keputusan kritis.
Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa
Data Mining adalah suatu teknik menggali informasi berharga yang
terpendam atau tersembunyi pada suatu koleksi data (database) yang
sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya
tidak diketahui.
3. Fungsi Data Mining
Teknik – teknik data mining telah digunakan untuk menemukan pola yang
tersembunyi dan meprediksi tren masa depan. Dan keuntungan kompetitif
dari data mining termasuk dengan meningkatnya pendapatan, berkurangnya
pengeluaran, dan kemampuan pemasaran yang meningkat. (Pujari et. All,
2012)
Data mining dibagi menjadi dua kategori utama (Han dan Kamber, 2006 : 21- 29) yaitu:
A. Prediktif
Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut
tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang
diprediksi umumnya dikenal sebagai target atau variable tak bebas,
sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal
sebagai explanatory atau variable bebas.
B. Deskriptif
Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola
(korelasi, trend, cluster, teritori, dan anomali) yang meringkas
hubungan yang pokok dalam data. Tugas data mining deskriptif sering
merupakan penyelidikan dan seringkali memerlukan teknik post-processing
untuk validasi dan penjelasan hasil.
Fungsi dari data mining juga ada dalam dunia kesehatan, dimana data
mining telah digunakan untuk untuk meningkatkan diagnosis dan pengobatan
atau lebih mengerti perilaku dari pasien. (Sandra et all, 2009)
Data mining juga memiliki beberapa fungsionalitas yaitu Concept/Class
Description: Characterization and Discrimination, Mining Frequent
Patterns, Associations, and Correlations, Classification and Prediction,
Cluster Analysis, Outlier analysis, dan Evolution analysis. (Han dan
Kamber, 2006 : 21 – 27)
Berikut adalah penjelasan dari masing-masing fungsi diatas:
1. Concept/Class Description: Characterization and Discrimination
Data characterization adalah ringkasan dari semua karakteristik atau
fitur dari data yang telah diperoleh dari target kelas. Data yang
sesuai dengan kelas yang telah ditentukan oleh pengguna biasanya
dikumpulkan di dalam database. Misalnya, untuk mempelajari karakteristik
produk perangkat lunak dimana pada tahun lalu seluruh penjualan telah
meningkat sebesar 10%, data yang terkait dengan produk-produk tersebut
dapat dikumpulkan dengan menjalankan sebuah query SQL. Sedangkan, data
discrimination adalah perbandingan antara fitur umum objek data target
kelas dengan fitur umum objek dari satu atau satu set kelas lainnya.
target diambil melalui query database. Misalnya, pengguna mungkin ingin
membandingkan fitur umum dari produk perangkat lunak yang pada tahun
lalu penjualannya meningkat sebesar 10% tetapi selama periode yang sama
seluruh penjualan juga menurun setidaknya 30%.
2. Mining Frequent Patterns, Associations, and Correlations
Frequent Patterns adalah pola yang sering terjadi di dalam data. Ada
banyak jenis dari frequent patterns, termasuk di dalamnya pola,
sekelompok item set, sub-sequence, dan sub-struktur. Sebuah frequent
patterns biasanya mengacu pada satu set item yang sering muncul
bersama-sama dalam suatu kumpulan data transaksional, misalnya seperti
susu dan roti.
Associations Analysis adalah pencarian aturan-aturan asosiasi yang
menunjukan kondisi-kondisi nilai atribut yang sering terjadi
bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan
untuk menganalisa Market Basket Analysis dan data transaksi.
3. Classification and Prediction
Klasifikasi adalah proses untuk menemukan model atau fungsi yang
menggambarkan dan membedakan kelas data atau konsep dengan tujuan
memprediksikan kelas untuk data yang tidak diketahui kelasnya. Model
yang diturunkan didasarkan pada analisis dari training data (yaitu objek
data yang memiliki label kelas yang diketahui). Model yang diturunkan
dapat direpresentasikan dalam berbagai bentuk seperti If-then
klasifikasi, decision tree, dan sebagainya.
Teknik classification bekerja dengan mengelompokkan data berdasarkan
data training dan nilai atribut klasifikasi. Aturan pengelompokan
tersebut akan digunakan untuk klasifikasi data baru ke dalam kelompok
yang ada. Classification dapat direpresentasikan dalam bentuk pohon
keputusan (decision tree). Setiap node dalam pohon keputusan menyatakan
suatu tes terhadap atribut dataset, sedangkan setiap cabang menyatakan
hasil dari tes tersebut. Pohon keputusan yang terbentuk dapat
diterjemahkan menjadi sekumpulan aturan dalam bentuk IF condition THEN
outcome. (Mewati Ayub, 2007 : 7).
Dalam banyak kasus, pengguna ingin memprediksikan nilai-nilai data yang
tidak tersedia atau hilang (bukan label dari kelas). Dalam kasus ini
nilai data yang akan diprediksi merupakan data numeric. Disamping itu,
prediksi lebih menekankan pada identifikasi trend dari distribusi
berdasarkan data yang tersedia.
4. Cluster Analysis
Cluster adalah kumpulan objek data yang mirip satu sama lain dalam
kelompok yang sama dan berbeda dengan objek data di kelompok lain.
Sedangkan, Clustering atau Analisis Custer adalah proses pengelompokkan
satu set benda-benda fisik atau abstrak kedalam kelas objek yang sama.
Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu
sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam
suatu cluster dan semakin besar perbedaan tiap cluster maka kualitas
analisis cluster semakin baik.
1. Outlier analysis
Outlier merupakan objek data yang tidak mengikuti perilaku umum dari
data. Outlier dianggap sebagai noise atau pengecualian. Analisis data
outlier dapat dianggap sebagai noise atau pengecualian. Analisis data
outlier dinamakan Outlier Mining. Teknik ini berguna dalam fraud
detection dan rare events analysis.
2. Evolution analysis
Analisis evolusi data menjelaskan dan memodelkan trend dari objek yang
memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi
karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari
data yang berkaitan dengan waktu.
4. Tujuan Data Mining
Tujuan dari data mining (Hoffer, Prescott, dan McFadden, 2007) adalah:
1. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick-up meningkat di Colorado.
2. Confirmatory
Untuk mempertegas hipotesis, seperti halnya dua kali pendapatan keluarga
lebih suka dipakai untuk membeli peralatan keluarga dibandingkan dengan
satu kali pendapatan keluarga.
3. Exploratory
Untuk menganalisa data yang memiliki hubungan yang baru. Misalnya, pola apa yang cocok untuk kasus penggelapan kartu kredit.
5. Arsitektur Data Mining
Data mining merupakan proses pencarian pengetahuan yang menarik dari
data berukuran besar yang disimpan dalam basis data, data warehouse atau
tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem
data mining memiliki komponen-komponen utama (Han dan Kamber, 2006)
yaitu:
a. Database, data warehouse, World Wide Web, atau tempat
penyimpanan informasi lainnya: bisa berbentuk satu atau banyak database,
data warehouse, spreadsheet, ataupun tempat penyimpanan informasi
lainnya. Data Cleaning, Data Integration dan Data Selection dapat
dijalankan pada data tersebut.
b. Database dan data warehouse server. Komponen ini bertanggung
jawab dalam pengambilan data yang relevan, berdasarkan permintaan
pengguna.
c. Knowledge Based. Komponen ini merupakan domain knowledge yang
digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang
dihasilkan. Pengetahuan tersebut meliput hirarki konsep yang digunakan
untuk mengorganisasikan atribut atau nilai atribut kedalam level
abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa
kepercayaan pengguna (user belief), yang dapat digunakan untuk
menentukan kemenarikan pola yang diperoleh.
d. Data mining engine. Bagian ini merupakan komponen penting dalam
arsitektur sistem data mining. Komponen ini terdiri dari modul-modul
fungsional seperti karakterisasi, asosiasi, klasifikasi, dan analisis
cluster.
e. Ghrapical user interface (GUI). Modul ini berkomunikasi dengan
pengguna dan data mining. Melalui komponen ini, pengguna berinteraksi
dengan sistem menggunakan query.
Gambar Arsitektur sistem data mining
6. Klasifikasi Sistem Data Mining
Data Mining (Han dan Kamber, 2006 : 29) merupakan suatu pendekatan dalam
pemecahan masalah dengan menggunakan tinjauan berbagai sudut pandang
ilmu secara terpadu yaitu, database system, statistics, machine
learning, visualization, dan information system. (Gambar 2.2)
Gambar Data mining merupakan irisan dari berbagai disiplin
7. Knowledge Discovery In Databases
Han dan Kamber (2006 : 7), lebih spesifik menyatakan istilah Data Mining
dan Knowledge Discovery in Databases (KDD) secara bergantian untuk
menjelaskan proses penggalian informasi tersembunyi dalam suatu kumpulan
data yang besar. Akan tetapi kedua istilah tersebut memiliki konsep
yang berbeda, tetapi berkaitan satu sama lain dan salah satu tahap dalam
proses KDD adalah data mining.
Data mining adalah salah satu langkah dalam proses KDD secara
keseluruhan. Secara umum, data mining digunakan oleh banyak peneliti
sebagai sinonim dari proses KDD. Akhir-akhir ini, data mining dan
knowledge discovery telah diusulkan sebagai nama yang paling memadai
untuk keseluruhan proses KDD. Knowledge Discovery in Databases berkaitan
dengan proses penemuan pengetahuan yang diterapkan pada database. Hal
ini juga didefinisikan sebagai proses non-trivial untuk identifikasi
data yang valid, baru, berpotensi bermanfaat, dan akhirnya memiliki pola
yang dapat dimengerti. (Kurgan dan Musilek, 2006)
Knowledge discovery sering terhalang karena tantangan dalam integrasi
dan navigasi dari data yang berbeda. Selain itu, karena jumlah dimensi
di dalam data meningkat, pendekatan baru untuk penemuan pola sangat
diperlukan. (Zhiyuan Chen, 2007).
Berdasarkan pengertian beberapa pengertian tersebut dapat ditarik
kesimpulan bahwa Knowledge Discovery in Database (KDD) adalah proses
yang bertujuan untuk menggali dan menganalisis sejumlah besar himpunan
data dan mengekstrak informasi serta pengetahuan yang berguna.
Langkah penting dalam proses KDD dapat dilihat pada gambar 2.3 yang terdiri dari tahapan-tahapan sebagai berikut:
1) Data cleaning
Data cleaning merupakan proses membuang duplikasi data, memeriksa data
yang tidak konsisten, dan memperbaiki kesalahan pada data, seperti
kesalahan penulisan. Pada umumnya data yang diperoleh baik dari database
suatu perusahaan maupun hasil eksperimen, memiliki isi yang tidak
sempurna seperti data yang hilang, data yang tidak valid atau juga hanya
sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang
tidak relevan dengan hipotesa data mining yang dimiliki. Data cleaning
juga akan mempengaruhi hasil informasi dari teknik data mining karena
data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2) Data integration
Proses menambah data yang sudah ada dengan data atau informasi lain yang
relevan atau bisa disebut juga merupakan penggabungan data dari
berbagai database kedalam satu database baru yang dibutuhkan oleh KDD.
Tahapan cleaning dan integration pada KDD mengasumsikan bahwa integrator
data harus menghapus noise dari data awal secara paralel dengan
mengintegrasikan beberapa data set. (M. Brian Blake, 2009)
Gambar Data mining sebagai tahapan dalam proses KDD
3) Data selection
Pemilihan data yang relevan dan dapat dilakukan analisis dari data
operasional. Data hasil pemilihan disimpan dalam database yang terpisah.
4) Data transformation
Proses tranformasi data kedalam bentuk format tertentu sehingga data
tersebut sesuai untuk proses data mining. Sebagai contoh beberapa metode
standar seperti analisis asosiasi dan clustering hanya bisa menerima
input data kategorikal.
5) Data mining
Proses mencari pola atau informasi menarik dengan menggunakan teknik, metode atau algoritma tertentu.
6) Pattern evaluation
Mengidentifikasi pola-pola yang benar-benar menarik dari hasil data
mining. Dalam tahap ini hasil dari teknik data mining berupa pola-pola
yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa
yang ada memang tercapai atau tidak.
7) Knowledge presentation
Menampilkan pola informasi yang dihasilkan dari proses data mining,
visualisasi ini membantu mengkomunikasikan hasil data mining dalam
bentuk yang mudah dimengerti.
sumber: http://globallavebookx.blogspot.co.id/2015/01/pengertian-definisi-dan-fungsi-data.html
NAMA : ROLAND PANGIHUTAN
NPM : 16115250
TUGAS : SOFTSKILL_3