Apa itu Big Data?



5V Big Data

Big Data adalah istilah yang digunakan untuk menggambarkan kumpulan data yang sangat besar dan kompleks yang tidak dapat diolah dengan menggunakan perangkat lunak pemrosesan data tradisional. Data dalam skala besar ini diperoleh dari berbagai sumber, termasuk sensor, perangkat terhubung (Internet of Things), media sosial, transaksi bisnis, dan banyak lagi. Data yang dikumpulkan dari sumber-sumber ini terus berkembang secara eksponensial, mencapai volume yang sangat besar dalam ukuran yang mungkin tidak pernah terbayangkan sebelumnya.

Karakteristik utama dari Big Data ditandai oleh 3V, yaitu:

  1. Volume, Merujuk pada besarnya jumlah data yang dihasilkan dan dikumpulkan dari berbagai sumber. Data dalam jumlah besar ini bisa mencapai skala petabytes atau exabytes.
  2. Velocity, Mewakili kecepatan data yang dihasilkan dan diproses. Dengan kemajuan teknologi dan perangkat terhubung, data saat ini dihasilkan dan diproses dalam waktu nyata atau mendekati waktu nyata.
  3. Variety, Menandakan beragamnya jenis dan format data yang dikumpulkan. Big Data meliputi data terstruktur (misalnya, data tabel dalam database), data semi-terstruktur (misalnya, XML, JSON), dan data tidak terstruktur (misalnya, teks, gambar, video, audio, media sosial, dan data sensor).

Selain tiga V di atas, ada juga dua V tambahan yang sering dikaitkan dengan Big Data:

  1. Veracity, Merujuk pada keakuratan dan kepercayaan data. Karena Big Data berasal dari berbagai sumber, data ini mungkin mengandung kesalahan, inkonsistensi, atau ketidakpastian, sehingga perlu dilakukan penilaian dan validasi terhadap kualitas data.
  2. Value, Menandakan tujuan utama dari analisis Big Data, yaitu untuk mengekstrak wawasan dan nilai berharga dari jumlah data yang besar tersebut. Nilai ini dihasilkan melalui analisis data, teknik data mining, dan pembelajaran mesin yang mengarah pada pengambilan keputusan yang berinformasi dan wawasan yang dapat diimplementasikan.

Untuk mengolah dan menganalisis Big Data, diperlukan teknologi dan alat yang khusus dirancang untuk menangani skala besar dan kompleksitas data ini. Beberapa teknologi dan alat yang umum digunakan dalam pengolahan Big Data termasuk Hadoop, Apache Spark, NoSQL databases, sistem Distributed File System (DFS), dan teknologi pemrosesan data paralel.

Big Data memiliki potensi untuk memberikan wawasan yang berharga dan keuntungan bisnis yang besar, seperti pengambilan keputusan yang lebih tepat, peningkatan efisiensi operasional, dan inovasi dalam berbagai bidang termasuk bisnis, kesehatan, pemerintahan, sains, dan teknologi. Namun, tantangan besar dalam mengelola Big Data termasuk masalah privasi dan keamanan data, masalah kualitas data, serta kompleksitas analisis dan interpretasi data dalam skala besar.

Konsep dan Terminologi Big Data

Beberapa konsep dan terminologi dari Big Data. Clustered computing adalah penggabungan sumber daya dari beberapa mesin untuk menyelesaikan pekerjaan. Parallel computing adalah tipe komputasi di mana banyak perhitungan dilakukan secara bersamaan. Distributed computing melibatkan node atau komputer yang terhubung dalam jaringan yang menjalankan pekerjaan secara paralel. Batch processing mengacu pada memecah data menjadi bagian yang lebih kecil dan menjalankan setiap bagian di mesin individual. Real-time processing menuntut bahwa informasi diproses dan segera menjadi siap.

Sistem pemrosesan Big Data

Ada dua kerangka pemrosesan Big Data yang populer. Pertama adalah kerangka Hadoop/MapReduce yang sangat sukses. Kerangka Hadoop/MapReduce adalah kerangka kerja berskala besar dan sumber terbuka untuk data batch. Kedua adalah Apache Spark yang paling populer, yang merupakan kerangka kerja paralel untuk menyimpan dan memproses Big Data di berbagai komputer dalam klaster. Ini juga sumber terbuka dan cocok untuk pemrosesan data batch dan real-time. Dalam kursus ini, Anda akan belajar tentang Apache Spark.

Spark mendistribusikan data dan komputasi di berbagai komputer untuk menjalankan aplikasi multi-tahap kompleks seperti pembelajaran mesin. Spark menjalankan sebagian besar komputasi di memori dan dengan demikian memberikan kinerja yang lebih baik untuk aplikasi seperti data mining interaktif. Spark membantu menjalankan aplikasi hingga 100 kali lebih cepat di memori, dan 10 kali lebih cepat saat dijalankan di disk. Spark terutama ditulis dalam bahasa Scala tetapi juga mendukung Java, Python, R, dan SQL. Apache Spark adalah alternatif yang kuat untuk Hadoop MapReduce, dengan fitur kaya seperti pembelajaran mesin, pemrosesan aliran real-time, dan komputasi grafik. Di tengah ekosistem adalah Spark Core yang berisi fungsi dasar Spark. Sisa perpustakaan Spark dibangun di atasnya. Pertama adalah Spark SQL, yang merupakan perpustakaan untuk memproses data terstruktur dan semi-terstruktur dalam Python, Java, dan Scala. Yang kedua adalah MLlib, yang merupakan perpustakaan dari algoritma pembelajaran mesin umum. Komponen ketiga adalah GraphX, yang merupakan kumpulan algoritma dan alat untuk memanipulasi grafik dan melakukan komputasi grafik paralel. Terakhir, Spark Streaming adalah perpustakaan pemrosesan berkapasitas tinggi untuk data real-time. Dalam kursus ini, Anda akan belajar tentang SparkSQL dan MLlib.