Kategori
Artificial Intellegence Machine Learning Visualisasi Data

Kumpulan Dataset Machine Learning

Pengertian Datasets

Dataset adalah sekumpulan data yang disusun secara terstruktur. Biasanya, dataset dipresentasikan dalam bentuk tabel, alias baris dan kolom.

Dataset/Himpunan Data/Data Latih adalah sebuah himpunan data yang berasal dari informasi masa-masa lampau dan dikelola menjadi sebuah informasi untuk melakukan teknik dari ilmu data mining.

Tiap baris dan kolom biasanya mewakili variabel tertentu. Contohnya, misalkan suatu kolom mewakili jumlah skor siswa, sedangkan barisnya mewakili kelas siswanya.

Dengan kata lain, salah satu fungsi dataset adalah untuk memperhatikan hubungan antar variabel. Khususnya jika jumlah data dan variabel yang diteliti cukup bervariasi.

Bagaimana dengan data dan database? Berikut pengertiannya:

  • Data : Data adalah sekeping fakta atau informasi yang menampilkan nilai tertentu. Contohnya seperti angka berat badan atau jumlah siswa.
  • Database : Database adalah tempat di mana kumpulan data disimpan. Jika data adalah baju, maka database adalah lemarinya.

Kategori Dataset

Dataset sendiri terdiri dari 5 kategori yang terbagi menjadi 2 bagian data, 2 jenis dari dataset dan 1 tujuan dataset.

Tujuan dari dataset adalah untuk menguji suatu metode penelitian yang dikembangkan oleh para pakar peneliti dengan public dataset maupun private dataset.

Dataset adalah sebuah kumpulan data yang bersifat sebagai himpunan data yang berasal dari informasi-informasi pada masa sebelumnya dan siap untuk dikelola menjadi sebuah informasi baru dengan menggunakan teknik pembelajaran superised learning. Dimana digunakan untuk sistem prediksi sebagai acuan pendukung keputusan.

Dataset sendiri tidak serta merta didapatkan dengan mudah, karena harus mempunyai tujuan yang bersifat Comparable, repetable dan veriviable. Jenis dataset sendiri harus bisa pilah agar bisa memilih sebuah metode apa yang nantinya akan digunakan untuk penelitian dengan menggunakan pembelajaran supervised learning. Namun, pada artikel ini juga akan tertuliskan contoh-contoh dari dataset.

Jenis Dataset

  • Private Dataset, adalah data set yang dapat diambil dari sebuah organisasi yang akan kita lakukan sebagai objek penelitian misalnya seperti data bank, rumah sakit, universitas, perusahaan dan lain sebagainya
  • Public Dataset, adalag data set yang bisa kita ambil dari repository publik yang disepakati oleh ulama-ulama peneliti data mining, misalnya seperti UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html), ACM KDD (http://www.sigkdd.org/kddcup/).

Tujuan data set. 

Dewasa ini penelitian yang dilakukan pada bidang illmu data mining adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset. Sehingga penelitian tersebut dapat bersifat comparable, repeatable, dan veriviable.

Contoh Dataset Sederhana.

1. Data Golf

Yang pertama adalah data golf. Data ini mungkin sudah familiar dengan data yang sering dipakai sebagai contoh dalam buku-buku yang membahas tentang mengolah data menjadi sebuah informasi dengan ilmu data mining.

Pada data golf ini akan mempresentasikan layak bermain golf ya atau tidak dengan mengambil 4 jenis atribut dari dua atribut kategorikal atau diskrit dan dua atribut beripe numerik. Pada dataset ini dengan melihat jenis datanya dan seperti yang juga tertulis pada buku karya Eko Prasetyo mampu digunakan dengan menggunakan Algoritma klasifikasi seperti Naive Bayes dan C4.5 dari keluarga Decision Tree

2. Data Customer

Yang kedua adalah data customer. Data ini spesifiknya digunakan untuk memprediksi setiap pelanggan apakah masih setia ya tetap bertahan atau tidak. Dataset ini terdiri dari 3 atribut dari 2 atribut kategorikal dan 1 atribut numerik. Pada dataset ini akan sangat cocok bagi kamu yang masih pemula untuk belajar ilmu data mining.

Dengan melihat jenis datanya. Maka algoritma yang mampu untuk mengklasifikasikan dataset ini adalah Naive Bayes, dan Decision Tree, Namun jika menurut saya adalah yang akuasinya akurat adalah dengan metode Naive Bayes dengan menggunakan fungsi gaussian.

3. Data Iris

Yang ketiga adalah data iris, Data ini merupakan data yang digunakan untuk mempridiksi spesies bunga yang terdiri dari iris-setosa, iris-versicolour dan iris verginica. Dengan mengukur empat elemen yaitu Petal Lenght, Petal Width, Sepal Lenght dan Sepat Widht. Data ini hanya terdiri dari atribut data yang bertipe numerik. Ada beberapa algoritma atau metode yang bisa gunakan, yaitu Decision Tree, k-NN (Nearest Neighbor) dan Neural Network.

Basis Data (Datasets) Umum:

  1. Google Public Data Explorer
  2. Microsoft Research Open Datasets
  3. Kaggle Datasets
  4. UC Irvine Machine Learning Repository
  5. National Flight Data Center (NFDC)
  6. FAA Data & Research
  7. Flight Delay Information
  8. FAA Aviation Safety Information Analysis and Sharing (ASIAS)
  9. Aircraft Situation Display to Industry (ASDI)
  10. NTSB Accident Database & Synopses
  11. OpenFlights.org
  12. The Center for Innovation in Engineering and Science Education Real time data sites
  13. MIT Airline Data Project
  14. Space – Real-Time Space Weather Data Sources
  15. Politics – Data on the U.S. Congress – A Joint Effort from Brookings and the American Enterprise Institute
  16. Sports – Open Sports Data/API
  17. Sports – Football (Soccer) Stats
  18. Government  – Public Government Data Sets
  19. U.S. Department of Homeland Security Data
  20. Public Data for the State of Utah
  21. Finding Data on the Internet – Inside-R
  22. Nathan Yau’s collection of data sets
  23. Dr. Jerry A. Smith’s Favorite Data sets
  24. Hilary Mason’s “Research Quality” Data-sets
  25. Peter Skomoroch’s list of data sets on Delicious
  26. Data Wrangling blog data set list
  27. DonorsChoose.org – Hacking Education: A Contest for Developers and Data Crunchers
  28. Datasets for “The Elements of Statistical Learning”
  29. Enron Email Dataset
  30. Yandex
  31. The Data Page
  32. Public Data Sets on Amazon
  33. Miami School of Business Statistical Data Sets
  34. Public data put to good use
  35. ASU GeoDA Center Data
  36. European Cities 1M Data Sets
  37. University of Edinburgh School of Informatics Data Sets for Data Mining
  38. Opinion Mining, Sentiment Analysis, and Opinion Spam Detection
  39. Quandl – Intelligenct search for numerical data
  40. Gephi Graph Visualization Sample Data Sets
  41. CitiBike, by NYC Bike Share – Station data
  42. Large Datasets 
  43. Air Quality Notifications
  44. The GDELT Project – Global Database of Events, Language, and Tone
  45. http://www.kdnuggets.com/datasets/index.html
  46. http://archive.ics.uci.edu/ml/
  47. http://www.stat.ucla.edu/data/
  48. http://lib.stat.cmu.edu/
  49. http://www.umass.edu/statdata/statdata/
  50. http://datamarket.com/data/list/?q=provider:tsdl
  51. http://lib.stat.cmu.edu/DASL/
  52. http://www.statsci.org/data/index.html
  53. http://trec.nist.gov/data.html
  54. http://graphlab.org/resources/datasets.html
  55. http://www.scaleunlimited.com/datasets/public-datasets/
  56. http://www.datawrangling.com/some-datasets-available-on-theweb
  57. http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html
  58. http://pami.uwaterloo.ca/~hammouda/webdata/
  59. http://www.daviddlewis.com/resources/testcollections/reuters21578/
  60. http://dumps.wikimedia.org/
  61. http://www.cs.cmu.edu/~WebKB/
  62. http://www.uco.es/~in1rosaj/utiles/datasets.html
  63. http://www.ke.tu-darmstadt.de/resources/eurlex/eurlex.html
  64. KEEL

Basis Data Indonesia:

  1. Dataset Indonesia
  2. Badan Pusat Statistik (BPS)
  3. UN unglobalpulse research Data on Indonesia
  4. Global Open data Index Indonesia
  5. World bank Data on Indonesia
  6. OECD Data Indonesia
  7. Data Wilayah Indonesia dari Kemendagri
  8. Harga Pangan
  9. Harga Komoditi

Ref : [1][2][3]