Pengertian Datasets
Dataset adalah sekumpulan data yang disusun secara terstruktur. Biasanya, dataset dipresentasikan dalam bentuk tabel, alias baris dan kolom.
Dataset/Himpunan Data/Data Latih adalah sebuah himpunan data yang berasal dari informasi masa-masa lampau dan dikelola menjadi sebuah informasi untuk melakukan teknik dari ilmu data mining.
Tiap baris dan kolom biasanya mewakili variabel tertentu. Contohnya, misalkan suatu kolom mewakili jumlah skor siswa, sedangkan barisnya mewakili kelas siswanya.
Dengan kata lain, salah satu fungsi dataset adalah untuk memperhatikan hubungan antar variabel. Khususnya jika jumlah data dan variabel yang diteliti cukup bervariasi.
Bagaimana dengan data dan database? Berikut pengertiannya:
- Data : Data adalah sekeping fakta atau informasi yang menampilkan nilai tertentu. Contohnya seperti angka berat badan atau jumlah siswa.
- Database : Database adalah tempat di mana kumpulan data disimpan. Jika data adalah baju, maka database adalah lemarinya.
Kategori Dataset
Dataset sendiri terdiri dari 5 kategori yang terbagi menjadi 2 bagian data, 2 jenis dari dataset dan 1 tujuan dataset.
Tujuan dari dataset adalah untuk menguji suatu metode penelitian yang dikembangkan oleh para pakar peneliti dengan public dataset maupun private dataset.
Dataset adalah sebuah kumpulan data yang bersifat sebagai himpunan data yang berasal dari informasi-informasi pada masa sebelumnya dan siap untuk dikelola menjadi sebuah informasi baru dengan menggunakan teknik pembelajaran superised learning. Dimana digunakan untuk sistem prediksi sebagai acuan pendukung keputusan.
Dataset sendiri tidak serta merta didapatkan dengan mudah, karena harus mempunyai tujuan yang bersifat Comparable, repetable dan veriviable. Jenis dataset sendiri harus bisa pilah agar bisa memilih sebuah metode apa yang nantinya akan digunakan untuk penelitian dengan menggunakan pembelajaran supervised learning. Namun, pada artikel ini juga akan tertuliskan contoh-contoh dari dataset.
Jenis Dataset
- Private Dataset, adalah data set yang dapat diambil dari sebuah organisasi yang akan kita lakukan sebagai objek penelitian misalnya seperti data bank, rumah sakit, universitas, perusahaan dan lain sebagainya
- Public Dataset, adalag data set yang bisa kita ambil dari repository publik yang disepakati oleh ulama-ulama peneliti data mining, misalnya seperti UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html), ACM KDD (http://www.sigkdd.org/kddcup/).
Tujuan data set.
Dewasa ini penelitian yang dilakukan pada bidang illmu data mining adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset. Sehingga penelitian tersebut dapat bersifat comparable, repeatable, dan veriviable.
Contoh Dataset Sederhana.
1. Data Golf
Yang pertama adalah data golf. Data ini mungkin sudah familiar dengan data yang sering dipakai sebagai contoh dalam buku-buku yang membahas tentang mengolah data menjadi sebuah informasi dengan ilmu data mining.
Pada data golf ini akan mempresentasikan layak bermain golf ya atau tidak dengan mengambil 4 jenis atribut dari dua atribut kategorikal atau diskrit dan dua atribut beripe numerik. Pada dataset ini dengan melihat jenis datanya dan seperti yang juga tertulis pada buku karya Eko Prasetyo mampu digunakan dengan menggunakan Algoritma klasifikasi seperti Naive Bayes dan C4.5 dari keluarga Decision Tree.
2. Data Customer
Yang kedua adalah data customer. Data ini spesifiknya digunakan untuk memprediksi setiap pelanggan apakah masih setia ya tetap bertahan atau tidak. Dataset ini terdiri dari 3 atribut dari 2 atribut kategorikal dan 1 atribut numerik. Pada dataset ini akan sangat cocok bagi kamu yang masih pemula untuk belajar ilmu data mining.
Dengan melihat jenis datanya. Maka algoritma yang mampu untuk mengklasifikasikan dataset ini adalah Naive Bayes, dan Decision Tree, Namun jika menurut saya adalah yang akuasinya akurat adalah dengan metode Naive Bayes dengan menggunakan fungsi gaussian.
3. Data Iris
Yang ketiga adalah data iris, Data ini merupakan data yang digunakan untuk mempridiksi spesies bunga yang terdiri dari iris-setosa, iris-versicolour dan iris verginica. Dengan mengukur empat elemen yaitu Petal Lenght, Petal Width, Sepal Lenght dan Sepat Widht. Data ini hanya terdiri dari atribut data yang bertipe numerik. Ada beberapa algoritma atau metode yang bisa gunakan, yaitu Decision Tree, k-NN (Nearest Neighbor) dan Neural Network.
Basis Data (Datasets) Umum:
- Google Public Data Explorer
- Microsoft Research Open Datasets
- Kaggle Datasets
- UC Irvine Machine Learning Repository
- National Flight Data Center (NFDC)
- FAA Data & Research
- Flight Delay Information
- FAA Aviation Safety Information Analysis and Sharing (ASIAS)
- Aircraft Situation Display to Industry (ASDI)
- NTSB Accident Database & Synopses
- OpenFlights.org
- The Center for Innovation in Engineering and Science Education Real time data sites
- MIT Airline Data Project
- Space – Real-Time Space Weather Data Sources
- Politics – Data on the U.S. Congress – A Joint Effort from Brookings and the American Enterprise Institute
- Sports – Open Sports Data/API
- Sports – Football (Soccer) Stats
- Government – Public Government Data Sets
- U.S. Department of Homeland Security Data
- Public Data for the State of Utah
- Finding Data on the Internet – Inside-R
- Nathan Yau’s collection of data sets
- Dr. Jerry A. Smith’s Favorite Data sets
- Hilary Mason’s “Research Quality” Data-sets
- Peter Skomoroch’s list of data sets on Delicious
- Data Wrangling blog data set list
- DonorsChoose.org – Hacking Education: A Contest for Developers and Data Crunchers
- Datasets for “The Elements of Statistical Learning”
- Enron Email Dataset
- Yandex
- The Data Page
- Public Data Sets on Amazon
- Miami School of Business Statistical Data Sets
- Public data put to good use
- ASU GeoDA Center Data
- European Cities 1M Data Sets
- University of Edinburgh School of Informatics Data Sets for Data Mining
- Opinion Mining, Sentiment Analysis, and Opinion Spam Detection
- Quandl – Intelligenct search for numerical data
- Gephi Graph Visualization Sample Data Sets
- CitiBike, by NYC Bike Share – Station data
- Large Datasets
- Air Quality Notifications
- The GDELT Project – Global Database of Events, Language, and Tone
- http://www.kdnuggets.com/datasets/index.html
- http://archive.ics.uci.edu/ml/
- http://www.stat.ucla.edu/data/
- http://lib.stat.cmu.edu/
- http://www.umass.edu/statdata/statdata/
- http://datamarket.com/data/list/?q=provider:tsdl
- http://lib.stat.cmu.edu/DASL/
- http://www.statsci.org/data/index.html
- http://trec.nist.gov/data.html
- http://graphlab.org/resources/datasets.html
- http://www.scaleunlimited.com/datasets/public-datasets/
- http://www.datawrangling.com/some-datasets-available-on-theweb
- http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html
- http://pami.uwaterloo.ca/~hammouda/webdata/
- http://www.daviddlewis.com/resources/testcollections/reuters21578/
- http://dumps.wikimedia.org/
- http://www.cs.cmu.edu/~WebKB/
- http://www.uco.es/~in1rosaj/utiles/datasets.html
- http://www.ke.tu-darmstadt.de/resources/eurlex/eurlex.html
- KEEL