Sabtu, 26 Januari 2013

Data Mining




DATA MINING

I. LATAR BELAKANG

   Aplikasi basis data telah banyak diterapkan dalam berbagai antara lain bidang manajemen, manajemen data untuk industri, ilmu pegetahuan, administrasi pemerintah dan bidang-bidang lainnya. Akibatnya data yang dihasilkan oleh bidang-bidang tersebut sangatlah besar dan berkembang dengan cepat. Hal ini menyebabkan timbulnya kebutuhan terhadap teknik-teknik yang dapat melakukan pengolahan data sehingga dari data-data yang ada dapat diperoleh informasi penting yang dapat digunakan untuk perkembangan masing-masing bidang tersebut.

   Data Mining memang salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning atau analisa statistik yang berjalan di atas database. Namun pihak lain berpendapat bahwa database berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya.

Latar belakang terbentuknya Data Mining :
·  Merlimpahnya data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun.
·  Merlimpahnya data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun.
·  Data–data tersebut merupakan data transaksi yang umumnya diproses menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line Transaction Processing).

 Lalu apakah data mining itu? Silahkan anda simak artikel berikut ini.





II. Definisi Data Mining

   Data mining adalah suatu konsep yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar. Data mining juga bagian dari proses KDD ( Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil.

    Teknik data mining secara garis besar dapat dibagi dalam dua kelompok: verifikasi dan discovery. Metode verifikasi umumnya meliputi teknik-teknik statistik seperti goodness of fit, dan analisis variansi. Metode discovery lebih lanjut dapat dibagi atas model prediktif dan model deskriptif. Teknik prediktif melakukan prediksi terhadap data dengan menggunakan hasil-hasil yang telah diketahui dari data yang berbeda. Model ini dapat dibuat berdasarkan penggunaan data historis lain. Sementara itu, model deskriptif bertujuan mengidentifikasi pola-pola atau hubungan antar data dan memberikan cara untuk mengeksplorasi karakteristik data yang diselidiki.

III. Model Data Mining

   Dalam perkembangan teknologi data mining, terdapat model atau mode yang digunakan untuk melakukan proses penggalian informasi terhadap data-data yang ada. Menurut IBM model data mining dapat dibagi menjadi 2 bagian yaitu: verification model dan discovery model.

A. Verification Model

   Model ini menggunakan perkiraan (hypothesis) dari pengguna, dan melakukan test terhadap perkiraan yang diambil sebelumnya dengan menggunakan data-data yang ada. Penekanan terhadap model ini adalah terletak pada user yang bertanggung jawab terhadap penyusunan perkiraan (hypothesis) dan permasalahan pada data untuk meniadakan atau menegaskan hasil perkiraan (hypothesis) yang diambil.
  
   Sebagai contoh misalnya dalam bidang pemasaran, sebelum sebuah perusahaan mengeluarkan suatu produk baru kepasaran, perusahaan tersebut harus memiliki informasi tentang kecenderungan pelanggan untuk membeli produk yang akan dikeluarkan. Perkiraan (hypothesis) dapat disusun untuk mengidentifikasikan pelanggan yang potensial dan karakteristik dari pelanggan yang ada. Data-data tentang pembelian pelanggah sebelumnya dan data tentang keadaan pelanggan, dapat digunakan untuk melakukan perbandingan antara pembelian dan karakteristik pelanggan untuk menetapkan dan menguji target yang telah diperkirakan sebelumnya. Dari keseluruhan operasi yang ada selanjutnya dapat dilakukan penyaringan dengan cermat sehingga jumlah perkiraan (hypothesys) yang sebelumnya banyak akan menjadi semakin berkurang sesuai dengan keadaan yang sebenarnya.Permasalahan utama dengan model ini adalah tidak ada informasi bare yang dapat dibuat, melainkan hanya pembuktian atau melemahkan perkiraan (hypothesys) dengan data-data yang ada sebelumnya. Datadata yang ada pada model ini hanya digunakan untuk membuktikan mendukung perkiraan (hypothesis) yang telah diambil sebelumnya. Jadi model ini sepenuhnya tergantung pada kemampuan user untuk melakukan analisa terhadap permasalahan yang ingin digali dan diperoleh informasinya.

B. Discovery Model
   Model ini berbeda dengan verification model, dimana pada model ini system secara langsung menemukan informasi-informasi penting yang tersembunyi dalam suatu data yang besar. Data-data yang ada kemudian dipilah-pilah-untuk-menemukan suatu pola, trend yang ada, dan keadaaan umum pada saat itu tanpa adanya campur tangan dan tuntunan dari pengguna. Hasil temuan ini menyatakan fakta-fakta yang ada dalam datadata yang ditemukan dalam waktu yang sesingkat rnungkin.Sebagai contoh, misalkan sebuah bank ingin menemuan kelompok-kelompok pelanggan yang dapat dijadikan target suatu produk yang akan di keluaran.
  
   Pada data-data yang ada selanjutnya diadakan proses pencarian tanpa adanya
proses perkiraan (hypothesis) sebelumnya. Sampai akhirnya semua pelanggan
dikelompokan berdasarkan karakteristik yang sama.

IV. Tahapan Dalam Data Mining

   Data-data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data
mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh
dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini
sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Adapun
tahapan-tahapan yang harus dilalui dalam proses data mining antara lain:

· Basis Data Relasional
  
   Dewasa ini, hampir semua Data bisnis disimpan dalam basis data relasional. Sebuah model basis data relasional dibangun dari serangkaian tabel, setiap tabel disimpan sebagai sebuah file. Sebuah tabel relasional terdiri dari baris dan kolom. Kebanyakan model basis data relasional saat ini dibangun diatas lingkungan OLTP. OLTP (Online Transaction  Processing  )  adalah  tipe  akses  yang  digunakan  oleh  bisnis  yang membutuhkan transaksi konkuren dalam jumlah besar. Bentuk data yang tersimpan dalam basis data relasional inilah yang dapat diolah oleh sistem data mining.
· Ekstraksi Data

   Data-data yang dikumpulkan dalam proses transaksi seringkali ditempatkan pada lokasi yang berbeda-beds. Maka dari itu dibutuhkan kemampuan dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut disimpan dalam kantor regional, seringkali data tersebut di upload ke sebuah server yang lebih terpusat. Ini bisa dilakukan secara harian, mingguan, atau bulanan tergantung jumlah .data, keamanan dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat. Sebagai contoh, sebuah toko perangkat keras mungkin mengirim data yang menunjukan bahwa 10 rol kabel telah terjual pada hari ini oleh karyawan nomer 10 dibanding pengiriman data detail transaksi.

· Transformasi Data
   Transformasi data melakukan peringkasan data dengan mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah terakhir, data telah di ekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk menngkas data dalam sebuah tempat penyimpanan tunggal. Fungsi fungsi Agregate yang sering digunakan antara lain: summarizations, averages, minimum, maximum, dan count.
·  Pembersihan Data
  
Data-data yang telah terkumpul selanjutnya akan mengalami proses pembersihan. Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan attribut-attribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat. Adalah sangat penting untuk membuat data konsisten dan seiagam. Pembersihan data juga dapat membantu perusahaan untuk mengkonsolidasikan record. ini sangat berguna  ketika  sebuah  perusahaan  mempunyai  banyak  record  untuk  seorang pelanggan.Setiap record atau file pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap filenya berbeda.
·  Bentuk Standar

   Selanjutnya setelah data mengalami proses pembersihan maka data ditranfer kedalam bentuk standar. Bentuk standar adalah adalah bentuk data yang akan diakses oleh algoritma data mining. Bentuk standar ini biasanya dalam bentuk spreadsheet like. Bentuk spreadsheet bekerja dengan baik karena baris merepresentasikan kasus dan kolom merepresentasikan feature.
·  Reduksi Data dan Feature

   Setelah data berada dalam bentuk standar spreadsheet perlu dipertimbangkan untuk mereduksi jumlah feature. Ada beberapa alasan untuk mengurangi jumlah feature dalam spreadsheet kita. Sebuah bank mungkin mempunyai ratusan feature ketika hendak memprediksi resiko kredit. Hal ini berarti perusahaan mempunyai data dalam jumlah yang sangat besar. Bekerja dengan data sebanyak ini membuat algoritma prediksi menurun kinerjanya.
·  Menjalankan Algoritma
Setelah semua proses diatas dikerjakan, maka algoritma data mining sudah siap untuk dijalankan.

V. Teknik-teknik Data Mining

A. Classification
   Suatu  teknik  dengan melihat pada kelakuan  dan atribut dari kelompok  yang telah didefinisikan.Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Aturan-aturan  tersebut digunakan pada data-data baru  untuk diklasifikasi.  Teknik  ini  menggunkan            supervised induction            ,  yang  memanfaatkan kumpulan pengujian dari  record  yang  terklasifikasi untuk menentukan kelas-kelas tambahan. Salah satu contoh contoh yang mudah dan populer adalah dengan Decision tree yaitu salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi. Decision tree adalah model prediksi menggunakan struktur pohon atau struktur berhirarkiyang mudah dan populer adalah dengan Decision tree yaitu salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi. Decision tree adalah model prediksi menggunakan struktur pohon atau struktur berhirarki.

B. Association
   Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana link asosiasi muncul pada setiap kejadian. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.

Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support
yaitu prosentasi kombinasi atribut tersebut dalam basisdata dan            confidence yaitu kuatnya hubungan antar atribut dalam aturan asosiatif.Motivasi awal pencarian association rule berasal dari keinginan untuk menganalisa  data  transaksi  supermarket, ditinjau  dari perilaku customer  dalam  membeli produk. Association rule ini menjelaskan seberapa sering suatu produk dibeli secara bersamaan.
Sebagai contoh, association rule     beer       =>        diaper      (80%)” menunjukkan bahwa empat dari lima customer yang membeli          beer         juga membeli diaper.Dalam suatu association rule          X => Y, X disebut dengan antecedent dan Y disebut dengan consequent.Rule

C. Clustering
   Digunakan  untuk  menganalisis pengelompokkan berbeda  terhadap data,  mirip dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining.
Biasanya menggunkan metode neural network  atau statistik. Clustering membagi item menjadi kelompok-kelompok berdasarkan yang ditemukan tool data mining.
Prinsip dari clustering  adalah memaksimalkan  kesamaan antar anggota  satu kelas dan
meminimumkan kesamaan  antar  cluster.  Clustering   dapat  dilakukan pada data  yang  memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi


VI. Manfaat Data Mining

Dari sudut pandang komersial
   Pemanfaatan data mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data/informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya :
·  Bagaimana mengetahui hilangnya pelanggan karena pesaing
·  Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik
·  Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain
·  Bagaimana memprediski tingkat penjualan
·  Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item
·  Bagaimana memprediksi prilaku bisnis di masa yang akan datang

Dari sudut pandang keilmuan
   Data mining dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan sangat besar, misal :
·  Remote sensor yang ditempatkan pada suatu satelit.
·  Teleskop yang digunakan untuk memindai langit.
·  Simulasi saintifik yang membangkitkan data dalam ukuran terabytes.




 Kesimpulan
Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menaik yang sebelumnya tidak diketahui. Data mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent) machine learning, statistik dan database. Beberapa metode yang sering digunakan dalam literatur data mining antara lain clustering, classification, association rules, neural network genetic algorithm dan lain-lain.
Tahapan  dalam  Data  Mining  meliputi  :  proses  seleksi,  pembersihan  data,
tranformasi, implementasi teknik data mining dan interprestasi hasil. Dan Memiliki manfaat yang baik bagi perusahaan-perusahaan dalam mengelola database dalam ukuran yang sangat besar.

sumber:

http://id.wikipedia.org/wiki/Penggalian_data  
http://www.metris-community.com/pengertian-data-mining-konsep-pdf/
http://lecturer.eepis-its.edu/~tessy/lecturenotes/db2/bab10.pdf
http://p3m.amikom.ac.id/p3m/56%20-%20PENGANTAR%20SOLUSI%20DATA%20MINING.pdf 

http://books.google.co.id/books?id=-Ojclag73O8C&pg=PA3&dq=data+mining+adalah&hl=id&sa=X&ei=3T4EUdKxHMaUrge6wICoDg&ved=0CC4Q6AEwAA
 

2 komentar:

  1. Kita juga punya nih artikel mengenai Data Flow Diagram, silahkan dikunjungi dan dibaca, berikut http://repository.gunadarma.ac.id/bitstream/123456789/1359/1/50407997.pdf
    Terimakasih

    BalasHapus
  2. pak, ingin tanya tentang teknik data mining untuk memprediksi penjualan suatu produk, model yang umum untuk memprediksi data historis time series penjualan yang berbentuk seasonal trend selain holt-winter apa ya pak? saya pernah menulis artikel tentang holt winter berikut: http://datacomlink.blogspot.co.id/2015/12/serumit-apa-forecast-metode-holt.html

    BalasHapus