Evolusi pemrosesan fakta: Latar belakang pot

Diterbitkan: 2022-03-14

Bagaimana pemrosesan detail (pasokan terbuka) berkembang? Dan bagaimana sistem khusus berkembang dari waktu ke waktu ketika kerangka pemrosesan data menjadi lebih halus dan volume, serta kecepatan, pengetahuan yang dihasilkan telah diperkuat dari waktu ke waktu?

Izinkan kami menguji untuk menjawab dua masalah berikutnya: Bagaimana kami memproses detail, dan teknik pemrosesan pengetahuan apa yang tersedia bagi kami saat ini? Mengapa kami memproses informasi?

Itu cukup jelas ketika Anda memikirkan sejumlah besar gadget terkait, sensor, dan kunjungan halaman web. Belum lagi semua detail yang dihasilkan oleh manusia dan peralatan. Jelaslah bahwa pengolahan informasi telah ada sejak kita menemukan sistem komputer dan berpengalaman memperoleh informasi.

Di awal…

penyimpanan data lama di kartu punch

Dari kartu remi hingga komputer pribadi kuantum dalam 100 tahun analog dengan penerbangan dari Wright bersaudara ke pendaratan di bulan. (Peringkat kredit gambar: Getty)

Penciptaan komputer pribadi menghasilkan kebutuhan yang jelas untuk pengolahan informasi dan fakta. Melalui masa-masa yang sangat awal ini, para ahli laptop atau komputer berpengalaman membuat aplikasi yang dibuat khusus untuk memproses informasi dan ini kemungkinan besar telah disimpan di kartu punch.

Tindakan selanjutnya membawa bahasa rakitan dan bahasa pemrograman tujuan tambahan seperti Fortran, yang diadopsi oleh C dan Java. Sepanjang ruang fakta besar prasejarah, insinyur program perangkat lunak akan menggunakan bahasa ini untuk menulis kursus yang dibuat khusus untuk pekerjaan pemrosesan informasi yang unik.

Di sisi lain, paradigma pemrosesan detail ini hanya dapat diakses oleh beberapa pilihan yang memiliki latar belakang pemrograman yang mencegah adopsi yang lebih luas oleh analis informasi atau komunitas perusahaan yang lebih luas yang ingin sistem data dan membuat kesimpulan spesifik.

Tindakan alami berikutnya melihat penemuan database, di dalam dan sekitar tahun 1970-an. Unit basis data relasional standar, seperti basis data IBM, mengaktifkan SQL dan meningkatkan adopsi pemrosesan data oleh khalayak yang lebih luas. SQL adalah bahasa pertanyaan standar dan ekspresif yang berbunyi seperti bahasa Inggris.

Ini memungkinkan lebih banyak orang masuk ke pemrosesan fakta yang karenanya tidak lagi berpengalaman untuk mengandalkan programmer untuk menghasilkan paket situasi-demi-situasi eksklusif dan menganalisis data. SQL juga memperluas variasi dan bentuk tujuan yang berkaitan dengan pemrosesan pengetahuan seperti program perusahaan, analisis biaya churn, ukuran keranjang umum, angka pengembangan 12 bulan ke tahun, dan sebagainya.

Fajar info utama

Era Informasi Besar dimulai dengan makalah MapReduce, yang diproduksi oleh Google, yang menjelaskan produk langsung yang bergantung pada dua primitif – Peta dan Tebang.

Primitif ini diizinkan untuk komputasi paralel di sejumlah besar mesin paralel. Tentu saja, komputasi paralel telah dapat dilakukan bahkan sebelum era MapReduce melalui banyak komputer, superkomputer, dan perangkat MPI. Namun demikian, MapReduce mendesainnya tersedia untuk pemirsa yang lebih luas.

logo hadoop apache

Hadoop adalah tantangan aplikasi sumber daya terbuka yang menyediakan cara baru untuk pengecer dan memproses pengetahuan yang signifikan. (Riwayat kredit gambar: Apache)

Apache Hadoop hadir sebagai implementasi open-source dari kerangka kerja (pertama kali diimplementasikan di Yahoo!) yang tersebar luas di area open source dan dapat diakses oleh pemirsa yang lebih luas. Hadoop diadopsi oleh berbagai perusahaan dan beberapa pemain Fakta Penting berasal dari kerangka Hadoop.

Hadoop memperkenalkan tentang paradigma baru di rumah pemrosesan data: kemampuan untuk info outlet ritel dalam prosedur atau penyimpanan file yang tersebar (seperti HDFS untuk Hadoop) yang kemudian dapat diinterogasi / ditanyakan di tingkat selanjutnya.

Hadoop membajak rute yang sebanding ke database relasional di mana untuk memulai dengan tahap pemrograman yang dibundel secara personal oleh "pemeran" berbeda dari orang-orang yang telah siap untuk membuat program untuk kemudian mempraktikkan query SQL pada pengetahuan dalam teknik file terdistribusi, jenis ini sebagai Hive atau kerangka penyimpanan lainnya.

Terhubung: Info besar-besaran dan 5 pro besar Hadoop .

Pemrosesan batch menerima peningkatan

Fase masa depan dalam Fakta Besar memperhatikan pengenalan Apache Spark. Spark memungkinkan paralelisasi lebih lanjut dan membawa pemrosesan batch ke level berikutnya. Seperti yang ditunjukkan sebelumnya, pemrosesan batch terdiri dari menempatkan fakta ke dalam proses penyimpanan yang kemudian Anda hitung secara rutin.

Ide kuncinya di sini adalah bahwa fakta Anda berada di suatu tempat meskipun Anda secara berkala (harian, mingguan, per jam) menjalankan perhitungan untuk mengumpulkan efek terutama berdasarkan data masa lalu. Perhitungan ini tidak pernah berjalan secara konsisten dan memiliki tingkat awal dan titik akhir. Sebagai hasil akhirnya, Anda harus mengoperasikannya kembali secara berkelanjutan untuk mendapatkan hasil akhir yang terbaru.

Dari Pengetahuan Besar-besaran ke Pengetahuan Cepat – pengenalan pemrosesan aliran

konsep data besar

Aplikasi pemrosesan aliran beroperasi secara konsisten pada detail dan menghasilkan hasil dalam waktu aktual, sementara informasi dibuat (Kredit gambar: Getty)

Tahap mendatang dalam evolusi Informasi Besar ini melihat pengenalan pemrosesan aliran dengan Apache Storm tetap menjadi kerangka kerja pertama yang paling banyak digunakan (ada sistem studi dan kerangka kerja lain pada saat yang sama tetapi Storm adalah satu-satunya untuk melihat adopsi yang ditingkatkan). Kerangka kerja ini memungkinkan paket untuk ditulis yang dapat beroperasi terus menerus (24/7).

Berlawanan dengan taktik pemrosesan batch di mana rencana dan aplikasi memiliki awal dan kesimpulan, dengan program pemrosesan aliran berjalan terus-menerus berdasarkan fakta dan membuat hasil secara real-time, meskipun fakta diproduksi. Pemrosesan aliran lebih canggih dengan diperkenalkannya Apache Kafka (berasal dari LinkedIn) sebagai mekanisme penyimpanan untuk aliran pesan. Kafka bertindak sebagai penyangga yang melibatkan sumber informasi dan program pemrosesan (seperti Apache Storm).

Arsitektur Lambda menciptakan sedikit jalan memutar dalam kisah Informasi Besar. Arsitektur ini berasal karena fakta bahwa pengadopsi awal pemrosesan aliran tidak merasa bahwa metode pemrosesan aliran seperti Apache Storm cukup andal sehingga mereka menyelamatkan setiap sistem (pemrosesan batch dan aliran) yang dikelola pada waktu yang sama.

Arsitektur Lambda adalah campuran dari dua perangkat – program pemrosesan aliran seperti Apache Storm digunakan untuk wawasan waktu nyata tetapi kemudian arsitektur secara berkala menggunakan sistem pemrosesan batch yang mempertahankan kebenaran dasar dari apa yang terjadi.

Apache Flink – pemrosesan aliran menjadi tersedia

Sekitar tahun 2015, Apache Flink mulai menjadi kerangka kerja pemrosesan aliran luar biasa yang diadopsi oleh pengembang dan pemimpin fakta / analitik.

Sesuai sejak awal, Flink menunjukkan jaminan yang sangat solid setelah semantik dan mesin pemrosesan yang toleran terhadap kesalahan yang membuat pengguna percaya bahwa arsitektur Lambda tidak lagi penting dan pemrosesan aliran dapat diandalkan untuk pemrosesan acara yang canggih dan jogging terus-menerus, aplikasi misi-kritis. Semua overhead yang datang dengan mengembangkan dan mempertahankan dua unit (pemrosesan batch / aliran) menjadi berlebihan karena kerangka pemrosesan detail Flink yang dapat dipercaya dan dapat diperoleh.

Pemrosesan aliran meluncurkan paradigma baru dan pergeseran mentalitas dari sikap meminta tanggapan, di mana pengetahuan disimpan sebelum kemungkinan penipuan keadaan interogasi kepada seseorang di mana Anda memeriksa dengan pikiran pertama dan kemudian mendapatkan fakta-fakta secara otentik-waktu sebagai info dibuat. Sebagai ilustrasi, dengan pemrosesan aliran, Anda dapat mengembangkan perangkat lunak pendeteksi penipuan yang berjalan 24/7. Ini akan mendapatkan situasi dalam waktu aktual dan memberi Anda wawasan ketika ada penipuan kartu riwayat kredit, menghentikannya agar tidak benar-benar terjadi di tempat pertama. Kemungkinan besar ini adalah salah satu perubahan yang lebih besar dalam pemrosesan detail karena ini akan memungkinkan wawasan waktu-autentik tentang apa yang terjadi di seluruh dunia.

Evolusi pemrosesan fakta sumber daya terbuka telah mengalami pola khas, kerangka kerja baru diperkenalkan ke pasar (yaitu database relasional, pemrosesan batch, pemrosesan aliran) yang awalnya tersedia untuk pemirsa unik (pemrogram) yang dapat menghasilkan paket yang dibuat khusus untuk mendekati pengetahuan.

Kemudian muncul pengenalan SQL dalam kerangka kerja yang cenderung membuatnya dapat diakses secara umum oleh audiens yang benar-benar tidak ingin menulis paket untuk pemrosesan informasi yang canggih.

Pemrosesan aliran mengikuti pola SQL yang sangat mirip untuk aktivitas pemrosesan aliran, adopsi luas dalam aplikasi streaming yang memvalidasi pola yang kami ketahui sebelumnya. Tempat pasar pemrosesan aliran diperkirakan akan berkembang secara eksponensial dalam beberapa tahun mendatang dengan CAGR 21,6 persen. Dengan pertumbuhan ini dan berbagai aplikasi pemrosesan aliran dan keadaan penggunaan yang meledak dari hari ke hari, perkembangan di tempat ini cukup sedikit dan masa depan pemrosesan aliran dan lingkungan alam yang berubah dan berkembang setiap saat.

Aljoscha Krettek adalah Co-founder dan Engineering Direct di Veverica .