Kategori
New Technology

Apa itu Big Data?

Berawal dari keberhasilan perusahaan-perusahaan web service raksasa seperti halnya Google dan Facebook dalam mengelola dan memanfaatkan data tak terstruktur (Unstructed Data) yang berupa Consumer Generated Media (CGM) maupun Click Stream dalam volume yang sangat besar, sebuah konsep yang dikenal dengan istilah Big Data kemudian menjadi pusat perhatian dalam dunia teknologi informasi.

 

Di lain pihak, fakta juga menunjukkan bahwa semakin banyak organisas-organisasi di dunia, baik itu yang beruap perusahaan-perusahaan swasta maupun instansi-instansi pemerinah, yang mengalami kesulitan dalam mengelola data yang volumenya makin bertumbuh dan jenisnya yang semakin kompleks. Mereka harus memanage sekaligus menganalisa data-data tersebut, dan mereka harus menemukan arti atau nilai dari tumpukan data yang terus berkembang dan makin kompleks, yang dikatakan telah melewati batas kemampuan aplikasi pengolah data konvensional untuk memprosesnya. Kondisi data semacam ini juga dikategorikan sebagai Big Data, yang diartikan sebagai kumpulan data dalam jumlah yang sangat besar yang tantangannya terletak pada bagaiaman data-data tersebut mesti disimpan, bagaimana melakukan pencarian dalam tumpukan data-data tersebut. bagaimana membagi-bagikannya, bagaimana memvisualisasikannya, dan bagaimana data-data itu harus dianalisa.


Secara sederhana, Big Data telah didefinisikan sebagai sekumpulan data dengan volume yang sangat besar yang terlalu kompleks itu dapat diproses dengan teknologi pengolahan data konvensional. Saat ini, Big Data juga sering dideskripsikan sebagai data yang memiliki 3 karakteristrik, yaitu volume, variety dan velocity.

 

Demi menjawab tantangan kompleksitas pemberdayaan Big Data, Apache Software Foundation (ASF) kemudian menciptakan Apache Hadoop, sebuah framework Distributed System yang dikembangkan melalui proyek Open Source. Apache Hadoop utamanya terdiri atas Hadoop Distributed File System (HDFS) dan framework Distributed Parallel Processing System yang disebut Hadoop MapReduce. Dalam hal ini, HDFS berfungsi sebagai sistem penyimpanan data secara terdistribusi, sedangkan Hadoop MapReduce berfungsi sebagai framework pemrosesan data secara paralel dan terdistribusi.

 

Saat ini Apache Hadoop telah digunakan oleh berbagai perusahaan besar seperti halnya Yahoo, Facebook, E-Bay, IBM, Interl, NEC, NTT, Recruite, Amazon dan Rakuten. Oleh karena itu, sistem Hadoop dapat dioperasikan pada komputer server biasa, telah dikatakan sebagai penggerak utama dalam pengembangan Big Data. Dengan memberdayakan Hadoop untuk memproses dan menganalisa Big Data, dikatakan bahwa inovasi yang dihasilkan dari pengetahuian baru ataupun pemahaman yang lebih mendalam maupun solusi-solusi baru dalam proses pengambilan keputusan telah dapat direalisasikan.

 

Sejarah

Pada pembukaan Press Conference on Open Data Strategy tahun 2011, Neelie Kroes, yang saat itu menjabat sebagai Vice-Presicent of the European Commission responsible for the Digital Agenda, menyampaikan pidatonya yang berjudul “Data is the New Gold”. Pesannya adalah bahwa pada era digital ini, data telah menjadi bagian yang sangat penting bagi peradaban manusia seperti halnya minyak bumi, yang telah mendapat julukan black gold. Pernyataan tersebut disampaikan berdasar fakta bahwa data telah menjadi sumber laba bagi para pelaku bisnis di dunia maya Internet. Mereka hidup dari data yang mereka berdayakan.

Sejalan dengan pernyataan Neelie Kroes tersebut, kini, manajemen data bukan lagi hanya menjadi kompetensi yang penting bagi suatu organisasi, melainkan telah menjadi bagian kritis yang berperan sebagai penentu kemenangan dalam penguasaan pasar maupun dalam pencapaian misi. Saat ini, perusahaan-perusahaan Fortune 1000 dan institusi-institusi pemerintah telah mulai memetik keuntungan dari inovasi-inovasi yang telah dikembangkan oleh para pionir dalam bisnis web services. Para decision maker pada organisasi-organisasi tersebut sedang berupaya untuk mengembangkan inisiatif baru dan mengevaluasi strategi-strategi yang mereka miliki demi menemukan cara bagaimana mereka dapat memanfaatkan Big Data untuk mengembangkan bisnisnya. Dalam proses tersebut, mereka pun belajar untuk memahami apa itu Big Data; mulai dari definisi Big Data, jenis-jenis teknologi Big Data, manfaat yang mungkin diperoleh dari implementasi teknologi Big Data, hingga bagaimana memilih teknologi Big Data yang tepat bagi kebutuhan mereka.

Definisi

Big Data (Maha Data) adalah istilah umum untuk segala himpunan data (data set) dalam jumlah yang sangat besar, rumit dan tak terstruktur sehingga menjadikannya sukar ditangani apabila hanya menggunakan perkakas manajemen basis data biasa atau aplikasi pemroses data tradisional belaka. Mahadata juga dapat diartikan sebagai pertumbuhan data dan informasi yang eksponensial dengan kecepatan dalam pertambahannya dan memiliki data yang bervariasi sehingga menyebabkan tantangan baru dalam pengolahan sejumlah data besar yang heterogen dan mengetahui bagaimana cara memahami semua data tersebut.

Big Data adalah istilah yang menggambarkan volume data yang besar, baik data yang terstruktur maupun data yang tidak terstruktur. Big Data telah digunakan dalam banyak bisnis. Tidak hanya besar data yang menjadi poin utama tetapi apa yang harus dilakukan organisasi dengan data tersebut. Big Data dapat dianalisis untuk wawasan yang mengarah pada pengambilan keputusan dan strategi bisnis yang lebih baik.

Karakteristik Big Data

Big Data melibatkan proses pembuatan data, penyimpanan, penggalian informasi, dan analisis yang menonjol dalam hal volume, velocity, dan variety.

  1. Volume (Ukuran).    Pada tahun 2000 lalu, PC biasa pada umumnya memiliki kapasitas penyimpanan sekitar 10 gigabytes. Saat ini, Facebook menyedot sekitar 500 terabytes data baru setiap harinya; sebuah pesawat Boeing 737 menghasilkan sekitar 240 terabytes data penerbangan dalam satu penerbangan melintasi Amerika; makin menjamurnya penggunaan ponsel pintar (smartphone), bertambahnya sensor-sensor yang disertakan pada perangkat harian, akan terus mengalirkan jutaan data-data baru, yang terus ter-update, yang mencakup data-data yang berhubungan dengan lingkungan, lokasi, cuaca, video bahkan data tentang suasana hati si pengguna ponsel pintar.
  2. Velocity (kecepatan).    Clickstreams maupun ad impressions mencatat perilaku pengguna Internet dalam jutaan event per detik; algoritma jual-beli saham dalam frekwensi tinggi dapat mencerminkan perubahan pasar dalam hitungan microseconds; proses-proses yang melibatkan hubungan antara suatu mesin dengan mesin lainnya telah melibatkan pertukaran data antar jutaan perangkat; peralatan sensor dan perangkat-perangkat pada infrastruktur menghasilkan log data secara real time; sistem game online dapat melayani jutaan pengguna secara bersamaan, yang masing-masing memberikan sejumlah input per detiknya.
  3. Variety (ragam). Big Data tidak hanya menyangkut data yang berupa angka-angka, data tanggal, dan rangkaian teks. Big Data juga meliputi data-data ruang / geospatial, data 3D, audio dan video, dan data-data teks tak berstruktur termasuk file-file log dan media sosial. Sistem database tradisional didesain untuk menangani data-data berstruktur, yang tak terlalu sering mengalami update atau updatenya dapat diprediksi, serta memiliki struktur data yang konsisten yang volumenya tak pernah sebesar Big Data. Selain itu, sistem database tradisional juga didesain untuk digunakan dalam satu server yang berdiri sendiri, yang berakibat pada keterbatasan dan mahalnya biaya untuk peningkatan kapasitas, sedangkan aplikasi sudah dituntut untuk mampu melayani pengguna dalam jumlah yang jauh lebih besar dari yang pernah ada sebelumnya. Dalam hal ini, database Big Data seperti halnya MongoDB maupun HBase, dapat memberikan solusi yang feasible yang memungkinkan peningkatan profit perusahaan secara signifikan.
  4. Veracity, big data memiliki tentang ke-valid-an sebuah data apakah bisa dipercaya atau tidak. Sangat penting bahwa ke-valid-an sebuah data bisa dipercaya dan dipertahankan.
  5. Value, Nilai sebuah data menentukan keputusan yang diambil setelah memproses seluruh data.

Mengapa Big Data Penting?

Pentingnya Big Data, tidak hanya berputar pada jumlah data yang organisasi miliki, tetapi hal yang penting adalah bagaimana mengolah data internal dan eksternal. Kita dapat mengambil data dari sumber manapun dan menganalisanya untuk menemukan jawaban yang diinginkan dalam bisnis seperti:

  1. Pengurangan biaya; 
  2. Pengurangan waktu; 
  3. Pengembangan produk baru  
  4. Optimalisasi penawaran produk; dan 
  5. Pengambilan keputusan yang cerdas.

Jenis Teknologi Big Data : Big Data Operasional dan Big Data Analitis

Dalam hal Teknologi, bentangan Big Data didominasi oleh dua jenis teknologi Big Data yaitu: 

(1) Big Data Operasional sistem yang memiliki kapabilitas operasional untuk pekerjaan-pekerjaan bersifat interaktif dan real time dimana data pada umumnya diserap dan disimpan 

(2) Big Data Analitis sistem yang menyediakan kapabilitas analitis untuk mengerjakan analisis yang kompleks dan retrospektif yang dapat melibatkan sebagian besar atau bahkan keseluruhan data. Dalam keberadaannya, kedua jenis teknologi Big Data ini bersifat saling melengkapi dan sering digunakan secara bersamaan.

 

Beban kerja operasional dan analitis terhadap Big Data telah menyebabkan kebutuhan sistem yang berlawanan satu sama lain, dan sistem Big Data saat ini telah berevolusi untuk menangani kedua jenis kerja tersebut secara khusus, terpisah, dan dengan cara yang sangat berbeda. Baik kebutuhan kerja operasional maupun analitis untuk Big Data, masing-masing telah mendorong penciptaan arsitektur-arsitektur teknologi baru. Sistem operasional, seperti halnya NoSQL database, berfokus pada pelayanan terhadap permintaan akses yang tinggi yang terjadi dalam waktu bersamaan, dengan tetap memberikan respon yang seketika (low latency) terhadap permintaan akses tersebut. Akses data terhadap sistem operasional ini dapat dilakukan dengan berbagai pilihan kriteria. Dilain pihak, sistem analitis cenderung berfokus pada penanganan arus data yang lebih besar, query-query yang ditujukan pada data tersebut bisa sangat kompleks, dan setiap kali dieksekusi dapat melibatkan sebagian besar atau keseluruhan data yang ada dalam sistem. Baik sistem Big Data operasional maupun sistem Big Data analitis, kedua-duanya dioperasikan dengan melibatkan sejumlah servers yang tergabung dalam suatu cluster komputer, dan digunakan untuk mengelola puluhan atau ratusan terabytes data yang memuat miliaran record.

 

Teknologi Big Data Operasional

Untuk menangani pekerjaan-pekerjaan Big Data Operasional, telah dibangun sistem Big Data dengan database NoSQL seperti halnya database berbasis dokumen (document based database) yang dapat ditujukan untuk berbagai tipe aplikasi, database key-value stores, column family stores, dan database graph yang dioptimalkan untuk aplikasi yang lebih spesifik. Teknologi NoSQL, yang telah dikembangkan untuk mengatasi kekurangan dari database relasional (relational database) pada lingkungan komputasi modern, dikenal lebih cepat serta lebih mudah dan murah dalam hal peningkatan skala (more scalable) dibanding relational databases.

 

Terlebih lagi, sistem Big Data dengan database NoSQL telah didesain untuk memanfaatkan keunggulan dari arsitektur cloud computing (komputasi awan) yang telah muncul dalam dekade terakhir ini. Hal ini memungkinkan dijalankannya komputasi berskala besar secara efisien dan dengan biaya yang relatif lebih murah. Sebagai hasilnya, sistem NoSQL dengan komputasi awan ini telah menjadikan perangkat kerja Big Data operasional lebih mudah dikelola, serta dapat diimplementasikan dengan lebih murah dan cepat.

 

Teknologi Big Data Analitis

Dilain pihak, pekerjaan-pekerjaan Big Data analitis cenderung diproses dengan mengimplementasikan sistem database MPP dan MapReduce. Munculnya teknologi ini juga merupakan reaksi terhadap keterbatasan dan kurangnya kemampuan relational database tradisional untuk mengelola database dalam skala lebih dari satu server (terdistribusi). Disamping itu, MapReduce juga menawarkan metode baru dalam menganalisa data yang dapat berfungsi sebagai pelengkap terhadap kapabilitas SQL.

 

Dengan semakin populernya penggunaan berbagai jenis aplikasi dan para penggunanya terus menerus memproduksi data dari pemakaian aplikasi tersebut, terdapat sejumlah upaya analisa retrospektif yang benar-benar dapat memberikan nilai berarti terhadap kemajuan bisnis. Ketika upaya-upaya tersebut mesti melibatkan algoritma yang lebih rumit, MapReduce telah menjadi pilihan pertama untuk melakukan analisa retrospektif tersebut. Beberapa sistem NoSQL juga menyediakan fungsi MapReduce bawaan yang memungkinkan proses analisa diterapkan pada data operasional. Sebagai alternatif lain, data juga dapat dikopi dari sistem NoSQL ke dalam sistem analitis seperti halnya Hadoop dengan MapReduce-nya.

Aplikasi Big Data

  1. Gephi merupakan perangkat lunak open-source yang dapat digunakan untuk visualisasi dan analisis jaringan. Gephi dapat digunakan untuk membantu analis data untuk mengungkapkan pola dan tren, menyoroti secara spesifik mengenai outliers (orang ataupun suatu hal yang terpisah dari badan atau sistem utama) dan menceritakan mengenai data mereka. Gephi dapat menggunakan render engine 3D untuk menampilkan grafik real-time skala besar dan dapat digunakan untuk memperluas eksplorasi visualisasi dan analisis data. Gephi memiliki kapabilitas karena terdiri dari gabungan arsitektur yang fungsional dan fkleksibel yang dapat di kustomisasi dan disesuaikan sesuai kebutuhan dengan segala tipe jaringan yang ada untuk: Eksplor, Analisis, Visualisasi, Spatialize, Filter, Cluster, Manipulasi dan Export. 
    Gephi adalah hasil visualisasi dan manipulasi paradigma yang memperbolehkan user untuk menemukan jaringan dan properti-properti data. Terlebih lagi, Gephi memang didesain untuk mengikuti dan menyesuaikan rantai dan alur dari sebuah dataset studi kasus yang memang memiliki banyak atribut. Gephi merupakan perangkat lunak yang dapat diakses bebas yang dapat didistribusikan dibawah GPL 3 (“GNU General Public License”). Paket atribut yang tersedia di Gephi dijalankan menggunakan Java pada NetBeans platform. 
  2. Python merupakan bahasa pemrograman multiguna yang bersifat interpreter, berorientasi pada obyek dan dapat dioperasikan pada semua sistem operasi seperti Linux, Windows, Mac, dan lainnya. Python dibuat oleh seorang keturunan Belanda yang bernama Guido van Rossum. Tujuan utama python adalah lebih memusatkan pada keterbacaan kode dalam memahami sintaks, dimana sintaks tersebut berfungsi untuk mempermudah dan mempercepat pemrogram dalam proses pengkodeannya dibandingkan Java atau C++. Pada pengaplikasian python, terdapat banyak fungsi built-in (bawaan). Misalnya pada python 3.6 yang memiliki 68 fungsi built-in seperti abs(), all(), any(), ascii(), bin(), dan lainnya yang dapat memudahkan penggunanya dalam menyelesaikan suatu pekerjaan. Dengan menggunakan python, para pengguna dapat melakukan pemuatan kembali secara dinamis seperti merubah, mengkontruksi, dan memodifikasi tanpa menghentikan modul python, dapat melakukan kompilasi untuk portable kode byte yang berdampak pada peningkatan kecepatan eksekusi dan menjaga kode sumber, dan juga dapat mengatur memori otomatis yaitu kumpulan memori yang kotor sehingga dapat mencegah pencacatan kode. 
  3. Netlytic adalah sebuah aplikasi berbasis web penganalisis teks berbasis cloud dan visualisasi jaringan sosial. Netlytic secara otomatis dapat meringkas volume teks yang besar dan menemukan serta memvisualisasikan jaringan sosial dari percakapan pada situs media sosial seperti Twitter, Youtube, komentar blog, forum online, dan obrolan. Netlytic dirancang untuk membantu peneliti dan yang lainnya memahami operasi grup online, dan menemukan bagaimana informasi mengalir dalam jaringan.
  4. NiFi Apache NiFi yang merupakan kepanjangan dari Niagara Files adalah sebuah proyek perangkat lunak dari Apache Software Foundation. Program ini di rancang untuk mengotomatisasi aliran data antara sistem perangkat lunak. Aliran data yang dimaksud disini yaitu aliran informasi otomatis yang terkelola antar sistem. Pola masalah ini sudah ada sejak perusahaan memiliki beberapa sistem, dimana ada sistem yang mengambil data dan ada sistem yang menggunakan data. Masalah dan pola solusi ini telah di diskusikan dan diartikulasikan menjadi sebuah bentuk yang komprehensif dan mudah dikonsumsi dalam Pola Integrasi Perusahaan (Enterprise Integration Patterns).
  5. Tableau Software Tableau merupakan alat yang mendukung Business Intelligent yang dapat digunakan untuk membantu mengumpulkan, menyimpan, mengatur dan menganalisis data mentah sehingga menjadi sebuah informasi yang bernilai. Software Tableau terdiri dari beberapa versi yaitu Tableau Desktop, Tableau Server, Tableau Online, Tableau Reader, dan Tableau Public. Secara umum, tableu digunakan untuk menganalisis data secara visual. Tableau merupakan sebuah solusi untuk menangani semua kebutuhan bisnis, seperti:  Tampilan Dashboard, Penemuan Data, Laporan Hasil Analisis Analyst Level Reporting, Laporan dengan “Pixel Perfect” untuk percetakan, Laporan Operasional, Kemampuan menangani Big Data, Self Service, Embedded Analytics, Pengolahan dan pelaporan OLAP (Online Analytical Analysis), Peramalan dan prediksi analisis, 

Dalam fenomena Big Data, software ini membantu dalam menerjemahkan data dengan skala besar ke dalam bentuk yang lebih mudah dipahami seperti grafik dan bagan yang unik. Mengingat pertumbuhan berbagai bentuk data yang terlalu banyak untuk ditangani dengan cara konvensional, sehingga memerlukan sebuah cara agar dapat mengolah data yang banyak tadi menjadi sebuah informasi dengan cepat dan mudah dipahami. Selain itu, Tableu juga dapat menyederhanakan data yang kompleks dan berantakan sehingga data tersebut dapat menghasilkan pola–pola yang mengandung wawasan yang mendukung analisis pada data. Dengan data yang dimiliki, dapat dilihat pola dari suatu trend dimana hal tersebut sangat membantu para analis khususnya dalam bidang bisnis. Selain grafik dan bagan, Tableau juga dapat menghasilkan bentuk visualisasi berupa geocoding atau peta.

Manfaat Big Data Indonesia

Dari deskripsi Big Data Indonesia di atas? Beberapa manfaat yang bisa Anda dapatkan dengan menggunakan aplikasi ini adalah:

  1. Mampu menyuguhkan gambaran data yang lebih lengkap dibandingkan dengan aplikasi sebelumnya dengan jenis data yang biasa diolah adalah data terstruktur. Anda tidak perlu membagi data yang masuk ke dalam beberapa aplikasi karena kuantitasnya yang cukup banyak, atau karena ragamnya yang bervariasi. Kesatuan data yang utuh bisa Anda temukan disini.
  2. Beberapa data yang masuk dapat digunakan untuk merancang strategi pemasaran yang bagus sehingga meningkatkan omset perusahaan. Misalnya, data yang Anda dapatkan dari facebook atau social media yang lain akan diolah dengan rigid oleh Big Data Indonesia. Bagaimana tingkah laku dan respon konsumen, apa saja produk yang mendapatkan respon positif dan sebagainya. Dari situ, pihak perusahaan menghubungkan tingkah laku calon konsumen dengan database relasional yang sudah ada. Dari sini, akan ditemukan strategi, dan solusi untuk perkembangan perusahaan selanjutnya.
  3. Big data Indonesia siap dimanfaatkan untuk berbagai bidang. Mulai dari bisnis, pemerintahan, perbankan, dan sebagainya. Dalam bidang pemerintahan, big data dimanfaatkan untuk mempercepat pengambilan keputusan, monitoring, dan evaluasi.
  4. Membuat aplikasi baru. Big Data memungkinkan suatu perusahaan untuk mengumpulkan data-data real time dari produk-produk yang mereka pasarkan, dari sumber daya yang digunakan, dan data-data yang berkaitan dengan pelanggannya. Data-data ini dapat dimanfaatkan untuk mengoptimalkan kepuasan pelanggan ataupun untuk efisiensi penggunaan sumber daya. Sebagai contoh, sebuah kota besar di Amerika Serikat telah menggunakan MongoDB, sebuah document based NoSQL database, untuk menurunkan angka kejahatan dan meningkatkan pelayanan umum dengan mengumpulkan dan menganalisa data geospatial secara real-time dari 30 departemen yang berbeda.
  5. Meningkatkan efektifitas dan menurunkan biaya dari aplikasi yang telah ada. Teknologi Big Data dapat menggantikan sistem berspesifikasi tinggi yang mahal dengan sistem yang dapat dijalankan dengan spesifikasi standar. Disamping itu, karena banyak teknologi Big Data yang sifatnya open source, tentu mereka dapat diimplementasikan dengan biaya yang lebih murah dibandingkan teknologi yang hanya dimiliki dan dijual oleh suatu perusahaan.
  6. Meningkatkan loyalitas pelanggan. Dengan semakin banyaknya data yang bisa diakses oleh berbagai bagian dalam suatu organisasi, juga dengan semakin cepatnya update yang dilakukan pada data-data tersebut, akan memungkinkan respon yang makin cepat dan akurat pula terhadap berbagai permintaan pelanggan.

Tantangan dalam Big Data

Meskipun big data memberi banyak kemudahan, bukan berarti tidak ada tantangan dalam menggunakannya. Salah satu kesalahan yang sering terjadi adalah perusahaan atau organisasi hanya menggunakan data tanpa melibatkan manusia. Padahal untuk bisa menggunakan data tersebut dengan baik dan benar, perlu campur tangan manusia untuk mempelajarinya. Anda bisa mendengar lebih banyak tentang itu di video di bawah ini:

Yang pertama perlu diingat, big data memiliki jumlah yang besar. Meskipun sudah ada tools yang bisa membantu Anda untuk menyimpan data-data ini, volume data terus meningkat setiap tahunnya. Masih banyak organisasi yang kesulitan menampung data-datanya.

Tidak hanya untuk ditampung, data-data ini juga perlu diolah. Untuk mengolah data agar data-data yang kita miliki sudah bersih atau sesuai dengan kebutuhan klien dan organisasi membutuhkan banyak pekerjaan. Data scientist menghabiskan 50-80% waktu mereka untuk menganalisa dan mempersiapkan data agar bisa digunakan.

Akhirnya, teknologi big data terus berubah dengan sangat cepat. Beberapa tahun yang lalu, Apache Hadoop adalah teknologi populer yang digunakan untuk menangani data besar. Kemudian Apache Spark diperkenalkan pada tahun 2014. Saat ini, kombinasi dari dua software ini tampaknya merupakan pendekatan terbaik. Mengikuti teknologi big data masih menjadi suatu tantangan berkelanjutan baik untuk individual maupun organisasi.

 

 

 

 

Ref : [1][2][3][4][5][6][7]