تطور معالجة الحقائق: خلفية محفوظ بوعاء

نشرت: 2022-03-14

كيف تم تطوير معالجة التفاصيل (العرض المفتوح)؟ وكيف تطورت الأنظمة المميزة مع مرور الوقت حيث أصبحت أطر معالجة البيانات أكثر دقة وتضخم حجم وسرعة المعرفة المنتجة كل ساعة؟

اسمح لنا بإجراء اختبار للإجابة على المسألتين التاليتين: كيف يمكننا معالجة التفاصيل ، وما هي تقنيات معالجة المعرفة المتاحة لنا في الوقت الحاضر؟ لماذا نقوم بإجراء المعلومات؟

يتضح هذا تمامًا عندما تفكر في الكم الهائل من الأدوات وأجهزة الاستشعار وزيارات صفحات الويب ذات الصلة. ناهيك عن كل التفاصيل التي ينتجها الإنسان والمعدات. من الواضح أن معالجة المعلومات كانت موجودة في كل مكان منذ أن اخترعنا أنظمة الكمبيوتر وخبرنا الحصول على المعلومات.

في البداية ...

تخزين البيانات القديمة على بطاقات مثقبة

من أوراق اللعب المثقوبة إلى أجهزة الكمبيوتر الشخصية الكمومية في 100 عام ، يشبه الطيران من الأخوين رايت إلى الهبوط على القمر. (تصنيف ائتمان الصورة: جيتي)

أنتج إنشاء أجهزة الكمبيوتر الشخصية واضحة سوف تحتاج إلى معالجة المعلومات والحقائق. خلال هذه الأوقات المبكرة بشكل لا يصدق ، خبرة خبراء الكمبيوتر المحمول أو الكمبيوتر في إنشاء تطبيقات مخصصة لمعالجة المعلومات ، وقد تم حفظها على الأرجح على بطاقة مثقبة.

جلبت الإجراءات التالية لغة التجميع ولغات البرمجة الهادفة الإضافية مثل Fortran ، التي اعتمدتها C و Java. من خلال مساحة الحقائق الضخمة التي تعود إلى عصور ما قبل التاريخ ، سيستخدم مهندسو البرامج هذه اللغات لكتابة دورات تدريبية مصممة خصيصًا لوظائف معالجة المعلومات الفريدة.

من ناحية أخرى ، كان نموذج معالجة التفاصيل هذا متاحًا فقط لمجموعة منتقاة من هؤلاء الذين عانوا من خلفية البرمجة التي حالت دون اعتمادها على نطاق واسع من قبل محللي المعلومات أو مجتمع الشركة الأوسع الذي أراد نظام البيانات والتوصل إلى استنتاجات محددة.

لاحظ الإجراء الطبيعي البحت التالي اختراع قاعدة البيانات ، في السبعينيات وشاملها. وحدات قواعد البيانات العلائقية القياسية ، مثل قواعد بيانات IBM ، مكّنت SQL ورفعت من اعتماد معالجة البيانات من قبل جماهير أوسع. SQL هي لغة أسئلة معيارية ومعبرة تشبه إلى حد ما اللغة الإنجليزية.

لقد مكّن المزيد من الأشخاص من الدخول إلى معالجة الحقائق الذين لم يعد لديهم خبرة طويلة في الاعتماد على المبرمجين لإنتاج حزم حصرية لكل حالة على حدة وتحليل البيانات. قامت SQL أيضًا بتوسيع تنوع وشكل الأغراض ذات الصلة بمعالجة المعرفة مثل برامج الشركة ، وتحليلات تكاليف التغيير ، وحجم السلة المشترك ، وأرقام التطوير على مدار 12 شهرًا ، وما إلى ذلك.

فجر المعلومات الرئيسية

بدأ عصر المعلومات الضخمة بورقة MapReduce ، التي أنتجتها Google ، والتي تشرح منتجًا مباشرًا يعتمد على عنصرين أساسيين - Map and Cut down.

سمحت هذه البدائل بإجراء عمليات حسابية متوازية عبر كمية كبيرة من الآلات المتوازية. بالتأكيد ، كانت الحسابات المتوازية مجدية حتى قبل حقبة MapReduce مباشرة عن طريق العديد من أجهزة الكمبيوتر وأجهزة الكمبيوتر العملاقة وأجهزة MPI. ومع ذلك ، صمم MapReduce أنه متاح لمشاهدين أوسع.

اباتشي هادوب الشعار

Hadoop هو تحدٍ مفتوح لتطبيق الموارد يوفر طريقة جديدة لمتاجر التجزئة ومعالجة المعرفة المهمة. (سجل ائتمان الصورة: Apache)

وصل Apache Hadoop بعد تطبيق مفتوح المصدر لإطار العمل (تم تنفيذه في البداية في Yahoo!) والذي كان موجودًا على نطاق واسع في منطقة المصدر المفتوح ويمكن الحصول عليه من قبل مشاهدين أوسع. تم اعتماد Hadoop من قبل مجموعة متنوعة من الشركات والعديد من لاعبي الحقائق الهامة لديهم أصولهم في إطار Hadoop.

قدم Hadoop نموذجًا جديدًا في دار معالجة البيانات: القدرة على بيع معلومات منفذ البيع بالتجزئة في إجراء ملف مشتت أو تخزين (مثل HDFS لـ Hadoop) والذي يمكن بعد ذلك استجوابه / الاستعلام عنه في مستوى لاحق.

حرث Hadoop مسارًا مشابهًا لقواعد البيانات العلائقية حيث يبدأ من خلال مرحلة البرمجة الشخصية المجمعة من قبل "فريق عمل" متميز من الأشخاص الذين كانوا مستعدين لإنشاء برامج لتطبيق استعلامات SQL على المعرفة في تقنية الملفات الموزعة ، هذا النوع من كخلية أو أطر تخزين أخرى.

متصل: معلومات ضخمة وإيجابيات Hadoop الخمسة الكبرى .

تم تكثيف معالجة الدُفعات

لاحظت المرحلة المستقبلية في حقائق ضخمة إدخال Apache Spark. سمحت شرارة بمزيد من الموازاة وجلبت معالجة الدُفعات إلى المستوى التالي. كما أشرنا سابقًا ، تتكون معالجة الدُفعات من وضع الحقائق في عملية تخزين تقوم بعد ذلك بإجراء عمليات حسابية روتينية عليها.

الفكرة الأساسية هنا هي أن الحقائق الخاصة بك تجلس في مكان ما على الرغم من أنك تقوم بشكل دوري (يوميًا ، أسبوعيًا ، كل ساعة) بإجراء عمليات حسابية لجمع التأثيرات بناءً على البيانات السابقة بشكل أساسي. لا تعمل هذه الحسابات بشكل متسق مطلقًا ولها مستوى بدء ونقطة نهاية. نتيجة لذلك ، عليك إعادة تشغيلها بشكل مستمر للحصول على نتائج نهائية محدثة.

من المعرفة الهائلة إلى المعرفة السريعة - إدخال معالجة الدفق

مفهوم البيانات الضخمة

تعمل تطبيقات معالجة الدفق باستمرار على التفاصيل وتحقق نتائج في الوقت الفعلي ، بينما يتم إنشاء المعلومات (الصورة: Getty)

لاحظت هذه المرحلة القادمة من تطور المعلومات الكبيرة إدخال معالجة الدفق مع بقاء Apache Storm أول إطار عمل مستخدم بشكل كبير (انتهى الأمر بأنظمة وأطر دراسة أخرى في نفس الوقت ولكن Storm كانت الوحيدة التي شهدت اعتمادًا محسّنًا). مكّن إطار العمل هذا من صياغة الحزم التي يمكن أن تعمل باستمرار (24/7).

على عكس أسلوب معالجة الدُفعات حيث يكون للخطط والتطبيقات بداية ونهاية ، مع تشغيل برامج معالجة الدفق باستمرار على الحقائق وتحقيق النتائج في الوقت الفعلي ، على الرغم من إنتاج الحقائق. كانت معالجة البث أكثر تعقيدًا مع إدخال Apache Kafka (نشأ مع LinkedIn) كآلية تخزين لتدفق الرسائل. عمل كافكا كمخزن مؤقت يتضمن مصادر المعلومات وبرنامج المعالجة (مثل Apache Storm).

خلقت Lambda Architecture منعطفًا طفيفًا في قصة المعلومات الكبيرة. نشأت هذه البنية بسبب حقيقة أن المتبنين الأوليين لمعالجة الدفق لم يشعروا أن طرق معالجة الدفق مثل Apache Storm كانت موثوقة بشكل كافٍ وبالتالي قاموا بحفظ إدارة كل الأنظمة (معالجة الدُفعات والدفق) في نفس الوقت.

كانت Lambda Architecture عبارة عن مزيج من الجهازين - تم استخدام برنامج معالجة التدفق مثل Apache Storm للحصول على رؤى في الوقت الفعلي ولكن بعد ذلك استخدمت الهندسة المعمارية بشكل دوري نظام معالجة دفعي يحافظ على حقيقة ما حدث.

Apache Flink - أصبحت معالجة الدفق متاحة

حول عام 2015 ، بدأ Apache Flink في أن يصبح إطارًا متميزًا لمعالجة البث اعتمده المطورون وقادة الحقائق / التحليلات.

مناسبًا منذ البداية ، أظهر Flink تأكيدات قوية جدًا بعد الدلالات مباشرة ومحرك معالجة متسامح مع الأخطاء بنى المستخدمين يعتقدون أن بنية Lambda لم تعد مهمة وأن معالجة التدفق يمكن الاعتماد عليها لمعالجة الأحداث المعقدة والركض المستمر ، تطبيقات المهام الحرجة. كل النفقات العامة التي وصلت مع تطوير واستدامة وحدتين (معالجة الدُفعات / التدفق) أصبحت زائدة عن الحاجة بسبب إطار عمل معالجة التفاصيل الموثوق به والذي يمكن الحصول عليه من Flink.

أطلقت معالجة البث نموذجًا جديدًا وتحولًا في العقلية من موقف طلب الاستجابة ، حيث يتم تخزين المعرفة بالضبط مسبقًا لاستجواب ظرف الاحتيال المحتمل إلى شخص حيث يمكنك التحقق من الأفكار أولاً ثم الحصول على الحقائق في الوقت الحقيقي مثل تم إنشاء المعلومات. للتوضيح ، من خلال معالجة الدفق ، يمكنك تطوير برنامج للكشف عن الاحتيال يعمل على مدار الساعة طوال أيام الأسبوع. سيحصل على مواقف في الوقت الفعلي ويوفر لك نظرة ثاقبة عندما يكون هناك احتيال في بطاقة السجل الائتماني ، مما يمنعه من الحدوث حقًا في المكان الأول. يعد هذا على الأرجح أحد أكبر التحولات في معالجة التفاصيل نظرًا لأنه سيسمح برؤى حقيقية للوقت حول ما يحدث في العالم بأسره.

شهد تطور معالجة حقائق الموارد المفتوحة نمطًا نموذجيًا يتم تقديم إطار عمل جديد إلى السوق (على سبيل المثال ، قاعدة بيانات علائقية ، معالجة مجمعة ، معالجة تدفق) والتي تكون متاحة في البداية للمشاهدين الفريدين (المبرمجين) الذين يمكنهم إنتاج حزم مصممة خصيصًا لمقاربة المعرفة.

ثم يأتي إدخال SQL في إطار العمل الذي يجعله متاحًا بشكل عام للجمهور الذي لا يريد حقًا كتابة حزم لمعالجة المعلومات المعقدة.

تتبع معالجة الدفق نمطًا مشابهًا جدًا لـ SQL لأنشطة معالجة الدفق ، وهو اعتماد واسع في تطبيقات البث الذي يتحقق من صحة النمط الذي نعرفه في الماضي. من المتصور أن يتوسع سوق معالجة التدفق بشكل كبير في السنوات العديدة القادمة بمعدل نمو سنوي مركب يبلغ 21.6 في المائة. مع هذا النمو ونطاق تطبيقات معالجة الدفق وظروف الاستخدام التي تتفجر يومًا بعد يوم ، فإن التطورات في هذا المكان قليلة جدًا ومستقبل معالجة الدفق في أي بيئة طبيعية متغيرة ومتطورة.

Aljoscha Krettek هو الشريك المؤسس والمدير الهندسي المباشر في Veverica .