DATA MINING
I. LATAR
BELAKANG
Aplikasi basis data telah banyak
diterapkan dalam berbagai antara lain bidang manajemen, manajemen data untuk
industri, ilmu pegetahuan, administrasi pemerintah dan bidang-bidang lainnya.
Akibatnya data yang dihasilkan oleh bidang-bidang tersebut sangatlah besar dan
berkembang dengan cepat. Hal ini menyebabkan timbulnya kebutuhan terhadap
teknik-teknik yang dapat melakukan pengolahan data sehingga dari data-data yang
ada dapat diperoleh informasi penting yang dapat digunakan untuk perkembangan
masing-masing bidang tersebut.
Data Mining memang
salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang
masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena
data mining menyangkut database, kecerdasan buatan (artificial intelligence),
statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari
machine learning atau analisa statistik yang berjalan di atas database. Namun
pihak lain berpendapat bahwa database berperanan penting di data mining karena
data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan
disini terlihat peran penting database terutama dalam optimisasi query-nya.
Latar belakang terbentuknya Data Mining
:
· Merlimpahnya data ini merupakan akumulasi data
transaksi yang terekam bertahun-tahun.
·
Merlimpahnya
data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun.
·
Data–data
tersebut merupakan data transaksi yang umumnya diproses menggunakan aplikasi
komputer yang biasa disebut dengan OLTP (On Line Transaction Processing).
Lalu
apakah data mining itu? Silahkan anda simak artikel berikut ini.
II.
Definisi Data Mining
Data mining adalah suatu konsep yang
digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data
mining merupakan proses semi otomatik yang menggunakan teknik statistik,
matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi
dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan
di dalam database besar. Data mining juga bagian dari proses KDD (
Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan
seperti pemilihan data, pra pengolahan, transformasi, data mining, dan
evaluasi hasil.
Teknik
data mining secara garis besar dapat dibagi dalam dua kelompok:
verifikasi dan discovery. Metode verifikasi umumnya meliputi
teknik-teknik statistik seperti goodness of fit, dan analisis
variansi. Metode discovery lebih lanjut dapat dibagi atas model
prediktif dan model deskriptif. Teknik prediktif melakukan prediksi terhadap
data dengan menggunakan hasil-hasil yang telah diketahui dari data yang
berbeda. Model ini dapat dibuat berdasarkan penggunaan data historis lain.
Sementara itu, model deskriptif bertujuan mengidentifikasi pola-pola atau
hubungan antar data dan memberikan cara untuk mengeksplorasi karakteristik data
yang diselidiki.
III. Model Data Mining
Dalam
perkembangan teknologi data mining, terdapat model atau mode yang digunakan
untuk melakukan proses penggalian informasi terhadap data-data yang ada.
Menurut IBM model data mining dapat dibagi menjadi 2 bagian yaitu: verification
model dan discovery model.
A. Verification Model
Model
ini menggunakan perkiraan (hypothesis) dari pengguna, dan melakukan test
terhadap perkiraan yang diambil sebelumnya dengan menggunakan data-data yang
ada. Penekanan terhadap model ini adalah terletak pada user yang bertanggung
jawab terhadap penyusunan perkiraan (hypothesis) dan permasalahan pada data
untuk meniadakan atau menegaskan hasil perkiraan (hypothesis) yang diambil.
Sebagai
contoh misalnya dalam bidang pemasaran, sebelum sebuah perusahaan mengeluarkan
suatu produk baru kepasaran, perusahaan tersebut harus memiliki informasi
tentang kecenderungan pelanggan untuk membeli produk yang akan dikeluarkan.
Perkiraan (hypothesis) dapat disusun untuk mengidentifikasikan pelanggan yang
potensial dan karakteristik dari pelanggan yang ada. Data-data tentang
pembelian pelanggah sebelumnya dan data tentang keadaan pelanggan, dapat
digunakan untuk melakukan perbandingan antara pembelian dan karakteristik
pelanggan untuk menetapkan dan menguji target yang telah diperkirakan
sebelumnya. Dari keseluruhan operasi yang ada selanjutnya dapat dilakukan
penyaringan dengan cermat sehingga jumlah perkiraan (hypothesys) yang
sebelumnya banyak akan menjadi semakin berkurang sesuai dengan keadaan yang
sebenarnya.Permasalahan utama dengan model ini adalah tidak ada informasi bare
yang dapat dibuat, melainkan hanya pembuktian atau melemahkan perkiraan
(hypothesys) dengan data-data yang ada sebelumnya. Datadata yang ada pada model
ini hanya digunakan untuk membuktikan mendukung perkiraan (hypothesis) yang
telah diambil sebelumnya. Jadi model ini sepenuhnya tergantung pada kemampuan
user untuk melakukan analisa terhadap permasalahan yang ingin digali dan
diperoleh informasinya.
B. Discovery Model
Model ini
berbeda dengan verification model, dimana pada model ini system secara langsung
menemukan informasi-informasi penting yang tersembunyi dalam suatu data yang
besar. Data-data yang ada kemudian dipilah-pilah-untuk-menemukan suatu pola,
trend yang ada, dan keadaaan umum pada saat itu tanpa adanya campur tangan dan
tuntunan dari pengguna. Hasil temuan ini menyatakan fakta-fakta yang ada dalam
datadata yang ditemukan dalam waktu yang sesingkat rnungkin.Sebagai contoh,
misalkan sebuah bank ingin menemuan kelompok-kelompok pelanggan yang dapat
dijadikan target suatu produk yang akan di keluaran.
Pada
data-data yang ada selanjutnya diadakan proses pencarian tanpa adanya
proses perkiraan (hypothesis) sebelumnya. Sampai
akhirnya semua pelanggan
dikelompokan berdasarkan karakteristik yang sama.
IV. Tahapan Dalam Data Mining
Data-data yang ada, tidak dapat
langsung diolah dengan menggunakan sistem data
mining. Data-data tersebut harus dipersiapkan
terlebih dahulu agar hasil yang diperoleh
dapat lebih maksimal, dan waktu komputasinya lebih
minimal. Proses persiapan data ini
sendiri dapat mencapai 60 % dari keseluruhan proses
dalam data mining. Adapun
tahapan-tahapan yang harus dilalui dalam proses data
mining antara lain:
· Basis Data Relasional
Dewasa ini, hampir semua Data bisnis disimpan dalam basis data
relasional. Sebuah model basis data relasional dibangun dari serangkaian tabel,
setiap tabel disimpan sebagai sebuah file. Sebuah tabel relasional terdiri dari
baris dan kolom. Kebanyakan model basis data relasional saat ini dibangun
diatas lingkungan OLTP. OLTP (Online Transaction Processing
) adalah tipe
akses yang digunakan
oleh bisnis yang membutuhkan transaksi konkuren dalam
jumlah besar. Bentuk data yang tersimpan dalam basis data relasional inilah
yang dapat diolah oleh sistem data mining.
· Ekstraksi Data
Data-data yang dikumpulkan dalam proses transaksi seringkali
ditempatkan pada lokasi yang berbeda-beds. Maka dari itu dibutuhkan kemampuan
dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut
disimpan dalam kantor regional, seringkali data tersebut di upload ke sebuah
server yang lebih terpusat. Ini bisa dilakukan secara harian, mingguan, atau
bulanan tergantung jumlah .data, keamanan dan biaya. Data dapat diringkas dulu
sebelum dikirimkan ke tempat penyimpanan pusat. Sebagai contoh, sebuah toko
perangkat keras mungkin mengirim data yang menunjukan bahwa 10 rol kabel telah
terjual pada hari ini oleh karyawan nomer 10 dibanding pengiriman data detail
transaksi.
· Transformasi Data
Transformasi data melakukan peringkasan data
dengan mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan
tunggal. Pada langkah terakhir, data telah di ekstrak dari banyak basis data ke
dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini
mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa
perusahaan memilih untuk menngkas data dalam sebuah tempat penyimpanan tunggal.
Fungsi fungsi Agregate yang sering digunakan antara lain: summarizations,
averages, minimum, maximum, dan count.
· Pembersihan Data
Data-data yang
telah terkumpul selanjutnya akan mengalami proses pembersihan. Proses
pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan
attribut-attribut, merasionalisasi struktur data, dan mengendalikan data yang
hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data
mining tidak akurat. Adalah sangat penting untuk membuat data konsisten dan
seiagam. Pembersihan data juga dapat membantu perusahaan untuk mengkonsolidasikan
record. ini sangat berguna ketika sebuah
perusahaan mempunyai banyak
record untuk seorang pelanggan.Setiap record atau file
pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap
filenya berbeda.
· Bentuk Standar
Selanjutnya setelah
data mengalami proses pembersihan maka data ditranfer kedalam bentuk standar.
Bentuk standar adalah adalah bentuk data yang akan diakses oleh algoritma data
mining. Bentuk standar ini biasanya dalam bentuk spreadsheet like. Bentuk spreadsheet
bekerja dengan baik karena baris merepresentasikan kasus dan kolom
merepresentasikan feature.
· Reduksi Data dan Feature
Setelah data berada
dalam bentuk standar spreadsheet perlu dipertimbangkan untuk mereduksi jumlah
feature. Ada beberapa alasan untuk mengurangi jumlah feature dalam spreadsheet
kita. Sebuah bank mungkin mempunyai ratusan feature ketika hendak memprediksi
resiko kredit. Hal ini berarti perusahaan mempunyai data dalam jumlah yang
sangat besar. Bekerja dengan data sebanyak ini membuat algoritma prediksi
menurun kinerjanya.
· Menjalankan Algoritma
Setelah semua
proses diatas dikerjakan, maka algoritma data mining sudah siap untuk
dijalankan.
V. Teknik-teknik Data Mining
A. Classification
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan.Teknik ini dapat
memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang
telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah
aturan. Aturan-aturan tersebut digunakan
pada data-data baru untuk
diklasifikasi. Teknik ini
menggunkan supervised induction , yang
memanfaatkan kumpulan pengujian dari
record yang terklasifikasi untuk menentukan kelas-kelas tambahan.
Salah satu contoh contoh yang mudah dan populer adalah dengan Decision tree
yaitu salah satu metode klasifikasi yang paling populer karena mudah untuk
diinterpretasi. Decision tree adalah model prediksi menggunakan struktur pohon
atau struktur berhirarkiyang mudah dan populer adalah dengan Decision tree
yaitu salah satu metode klasifikasi yang paling populer karena mudah untuk
diinterpretasi. Decision tree adalah model prediksi menggunakan struktur pohon
atau struktur berhirarki.
B. Association
Digunakan untuk mengenali kelakuan dari
kejadian-kejadian khusus atau proses dimana link asosiasi muncul pada setiap
kejadian. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar
swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan
membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar
swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran
dengan memakai kupon diskon untuk kombinasi barang tertentu.
Penting tidaknya suatu aturan assosiatif dapat diketahui dengan
dua parameter, support
yaitu prosentasi kombinasi atribut tersebut dalam basisdata dan confidence
yaitu kuatnya hubungan antar atribut dalam aturan asosiatif.Motivasi awal
pencarian association rule berasal dari keinginan untuk menganalisa data
transaksi supermarket,
ditinjau dari perilaku customer dalam
membeli produk. Association rule ini menjelaskan seberapa sering suatu
produk dibeli secara bersamaan.
Sebagai contoh, association rule “beer => diaper
(80%)” menunjukkan bahwa empat dari lima customer yang membeli beer
juga membeli diaper.Dalam suatu association rule X
=> Y, X disebut dengan antecedent dan
Y disebut dengan consequent.Rule
C. Clustering
Digunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip dengan klasifikasi, namun
pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining.
Biasanya menggunkan metode neural
network atau statistik. Clustering
membagi item menjadi kelompok-kelompok berdasarkan yang ditemukan tool data
mining.
Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan
meminimumkan kesamaan antar
cluster. Clustering dapat
dilakukan pada data yang memiliki beberapa atribut yang dipetakan
sebagai ruang multidimensi
VI. Manfaat Data Mining
Dari sudut pandang komersial
Pemanfaatan
data mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana
mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik
komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi
yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi.
Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya
data/informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang
penting (warehousing). Data mining juga diperlukan untuk menyelesaikan
permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya :
·
Bagaimana
mengetahui hilangnya pelanggan karena pesaing
·
Bagaimana
mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik
·
Bagaimana
mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain
·
Bagaimana
memprediski tingkat penjualan
·
Bagaimana
menilai tingkat resiko dalam menentukan jumlah produksi suatu item
·
Bagaimana
memprediksi prilaku bisnis di masa yang akan datang
Dari sudut pandang keilmuan
Data mining
dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang
bersifat real-time dan sangat besar, misal :
· Remote sensor yang ditempatkan pada suatu satelit.
· Teleskop yang digunakan untuk memindai langit.
· Simulasi saintifik yang membangkitkan data dalam
ukuran terabytes.
Kesimpulan
Berdasarkan beberapa pengertian
tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik
menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi
data (database) yang sangat besar sehingga ditemukan suatu pola yang menaik
yang sebelumnya tidak diketahui. Data mining sendiri berarti usaha untuk
mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena
itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti
kecerdasan buatan (artificial intelligent) machine learning, statistik dan
database. Beberapa metode yang sering digunakan dalam literatur data mining
antara lain clustering, classification, association rules, neural network genetic
algorithm dan lain-lain.
Tahapan dalam
Data Mining meliputi
: proses seleksi,
pembersihan data,
tranformasi, implementasi teknik data mining dan interprestasi
hasil. Dan Memiliki manfaat yang baik bagi perusahaan-perusahaan dalam
mengelola database dalam ukuran yang sangat besar.
sumber:
http://id.wikipedia.org/wiki/Penggalian_data
http://www.metris-community.com/pengertian-data-mining-konsep-pdf/
http://lecturer.eepis-its.edu/~tessy/lecturenotes/db2/bab10.pdf
http://p3m.amikom.ac.id/p3m/56%20-%20PENGANTAR%20SOLUSI%20DATA%20MINING.pdf
http://books.google.co.id/books?id=-Ojclag73O8C&pg=PA3&dq=data+mining+adalah&hl=id&sa=X&ei=3T4EUdKxHMaUrge6wICoDg&ved=0CC4Q6AEwAA