كيف يستخدم تويتر Apache Cassandra لدعم منصة التواصل الاجتماعي الخاصة به
نشرت: 2022-11-17Twitter هو نظام أساسي للشبكات الاجتماعية يسمح للمستخدمين بإرسال وقراءة رسائل قصيرة تسمى "التغريدات". لقد كان موجودًا منذ عام 2006 وأصبح منذ ذلك الحين أحد أشهر منصات التواصل الاجتماعي. بينما يستخدم Twitter بعض أنظمة إدارة قواعد البيانات العلائقية (RDBMS) لأجزاء معينة من بنيته التحتية ، فإنه يستخدم أساسًا قاعدة بيانات NoSQL تسمى Apache Cassandra. تم تصميم Cassandra للتعامل مع كميات كبيرة من البيانات بتوافر وأداء عالٍ. يستخدم تويتر كاساندرا لعدة أسباب. أولاً ، إنه قابل للتطوير للغاية. يمكن أن يضيف Twitter بسهولة المزيد من عقد Cassandra مع نمو قاعدة مستخدميه. ثانيًا ، كاساندرا متاحة للغاية. حتى إذا تعطلت عقدة كاساندرا ، يمكن للآخرين التقاط الركود. أخيرًا ، كاساندرا سريعة. هذا مهم لمنصة الوسائط الاجتماعية حيث يتوقع المستخدمون تحديثات في الوقت الفعلي. لذلك ، بينما يستخدم Twitter بعض قواعد البيانات العلائقية ، فإن قاعدة بياناته الأساسية هي NoSQL. يتيح ذلك لتويتر التوسع بسرعة وتزويد مستخدميها بتجربة سريعة وموثوقة.
يقدم Kevin Weil ، مدير تطوير المنتجات في Twitter ، شرحًا لكيفية استخدام الشركة لـ NoSQL في مقطع فيديو نُشر في وقت سابق من هذا العام. ينتج مستخدمو Twitter يوميًا ما يقرب من 12 بيتابايت من البيانات ، أي ما يعادل 4 بيتابايت تقريبًا سنويًا. يتم استخدام Hadoop ، جنبًا إلى جنب مع مشروعه المفتوح المصدر المسمى FlockDB ، لتحليل البيانات الاجتماعية وتحليل البيانات. يجمع تويتر ويستخدم جميع المعلومات التي يجمعها من أجل توفير المحتوى ذي الصلة. وفقًا لـ Weil ، يعد SlideShare مكانًا رائعًا لمعرفة المزيد حول كيفية تحليل Twitter للرسوم البيانية الاجتماعية. لا يزال Twitter يجرب استخدام Cassandra ، قاعدة بيانات NoSQL مفتوحة المصدر على Facebook ، كخدمة.
كانت MySQL مخزن البيانات الأساسي في Twitter منذ إنشائها ، حيث نمت طبقة الثبات إلى عدد كبير من المجموعات. لدى Twitter نشر MySQL كبير منذ بدايته. هناك الآلاف من مجموعات MySQL بها ملايين العقد ، ويتم تقديم الاستعلامات في الثانية.
توفر Google Cloud نوعين من خدمات قاعدة بيانات NoSQL: Cloud Firestore ، وهي قاعدة بيانات موجهة للمستندات ، و Cloud Object Storage ، وهو نظام تخزين بيانات. إنه سهل الاستخدام ويحسن للمستندات الصغيرة ، مما يجعله مثاليًا لتطبيقات الأجهزة المحمولة. قواعد بيانات المستندات التي يمكن تحجيمها بسهولة ، وتعمل بشكل جيد ، وسهلة الاستخدام في Cloud Datastore .
تعمل تقنية NoSQL على تشغيل تطبيق الهاتف المحمول لشركة Ryanair ، أكثر خطوط الطيران ازدحامًا في العالم ، والتي تخدم أكثر من 3 ملايين مستخدم شهريًا. على مدى السنوات الثماني الماضية ، استخدمت ماريوت NoSQL لتشغيل نظام الحجز الخاص بها ، والذي يدر عائدات تبلغ 38 مليار دولار. بالإضافة إلى نظام إدارة المحتوى الخاص بها ، فإن Presto ، والذي يستخدمه ناشر الصحف الأمريكية رقم 1 ، The Chronicle of Higher Education ، يستخدم NoSQL.
PostgreSQL و Cassandra هما نظامان من أنظمة قواعد البيانات الخلفية في Instagram.
ما نوع قاعدة البيانات التي يستخدمها تويتر؟
يستخدم Twitter قاعدة بيانات علائقية لتخزين تغريداته. تم تصميم قاعدة البيانات هذه لتخزين البيانات في سلسلة من الجداول ، حيث يحتوي كل جدول على معلومات حول جانب معين من التغريدات. على سبيل المثال ، يوجد جدول لمعلومات المستخدم وجدول للتغريدات نفسها وجدول للعلاقات بين المستخدمين.
قد نحتاج إلى بعض هذه المعلومات لبعض خدماتنا ، مثل طلب توجيه طلبك إلى خادم معين ، ولكنه ليس مطلوبًا. إذا كنت تريد توجيه طلبك ، فلن تحتاج إلى معرفة الطابع الزمني لتغريدتك.
على الرغم من ذلك ، تظل البيانات في التخزين والمعالجة. ليست هناك حاجة لحذف المعلومات أو جعلها مجهولة المصدر. لا يمكن للحكومة الوصول إلى بياناتنا ، ولكن لا يزال من الممكن استخدامها لجمع معلومات عنك.
توجد بعض مخاوف الخصوصية نتيجة لتخزين هذه المعلومات ومعالجتها. كما يسمح للحكومة بتتبع تحركاتك وأنشطتك في المقام الأول. بالإضافة إلى ذلك ، يسمح للحكومة بالوصول إلى معلوماتك الشخصية دون موافقتك.
نحن لا نخزن نص تغريداتك. نحتفظ فقط باسم هذا الحساب والطابع الزمني له. نحن لا نخزن محتوى تغريداتك.
تغريداتك لا تأتي بأي بيانات يمكننا تخزينها عليها.
نقوم فقط بتخزين اسم الحساب والطابع الزمني عند تحميل الصورة.
فوائد استخدام مسكل
استخدم Twitter MySQL لتخزين التغريدات في الماضي. يمكن لـ MySQL التعامل مع عدد كبير من الطلبات نظرًا لموثوقيتها وطبيعتها المتسقة. يستخدم Facebook MySQL لتخزين جميع بيانات الوسائط الاجتماعية الخاصة به.
هل يستخدم Facebook Sql أو Nosql؟
نظرًا لأنه يوفر مرونة في نمذجة البيانات وكان MySQL منتشرًا في كل مكان عندما بدأ FB ، فقد تم استخدام SQL كقاعدة بيانات ثابتة و memcache كذاكرة تخزين مؤقت "lookaside" في الأيام الأولى لـ FB.
تخزن قاعدة بيانات Facebook الملفات الشخصية لعملائها ، الذين يمثلون ما يقرب من 23 ٪ من إجمالي العملاء. تنطبق المبادئ الأساسية التي تقوم عليها الهندسة المعمارية الموزعة عالميًا على نطاق الإنترنت على Facebook على مجموعة واسعة من تطبيقات المؤسسات التجارية الهامة ، بما في ذلك SaaS متعدد المستأجرين ، وهناك دروس يمكن تعلمها من فهم تطور قاعدة البيانات على Facebook بشكل أفضل. تعد واجهة برمجة تطبيقات TAO NoSQL Graph ، والتي تم إنشاؤها على نسخة مجزأة من قاعدة البيانات الشهيرة مفتوحة المصدر Mystria ، واحدة من واجهات برمجة تطبيقات NoSQL الخاصة بـ FB. قسمت TAO قواعد بيانات MySQL الرئيسية والعبد التابعة لـ 1000 أقدم يدويًا إلى الآلاف من العبيد المُشتركين. نتيجةً لذلك ، لم يعد التطبيق يستخدم قاعدة البيانات لإجراء المعاملات المشتركة بين الأجزاء وعمليات الربط المشتركة بين الأجزاء. نتيجة لذلك ، إذا تم تنفيذ هذا النوع من تجاوز الفشل ، فستفقد البيانات الحديثة. نظرًا لأنه يتم تخزين جميع الكائنات والارتباطات مؤقتًا على نفس الخوادم ، يمكن تخزينها في نفس الجزء لفترة زمنية غير محددة.
تم تحديد درجة تجميع البيانات على أنها تقنية تحسين مهمة تستخدم لتعظيم الوصول إلى بيانات زمن الوصول. تخلى مجتمع المطورين عن SQL لصالح NoSQL API المخصص لـ TAO بعد أن أجبرهم FB على التخلي عن واجهة برمجة تطبيقات استعلام SQL الخاصة بهم. تم إنشاء قاعدة بيانات Spanner من Google ، والتي تم إنشاؤها منذ أكثر من عقد ، كجزء من قاعدة بيانات TAO الخاصة بـ FB. كان نموذج بيانات Spanner ، على عكس الرسم البياني الاجتماعي ، أكثر من عبء عمل الوصول العشوائي التقليدي لـ OLTP. الجيل الثاني من قواعد البيانات الموزعة مبني على قابلية التوسع الضخمة وتوزيع البيانات العالمي كجزء من طبقة قاعدة البيانات. يستخدم Spanner الإجماع الموزع لكل جزء لضمان بقاء كل جزء (وليس كل مثيل فقط) متاحًا بشكل كبير في حالة فشل الخدمة. على الرغم من حقيقة أن تكوين مجموعة التطبيق قد تم تغييره ، إلا أنه لا يزال قيد التشغيل.
سيستمر تصنيف البيانات ذات الصلة بالمنطقة المحلية في أعلى القائمة بسبب ميزات مثل التقسيم الجغرافي على مستوى الجدول والصف. يتم استخدام مدير المعاملات الموزع في معاملة متعددة الأجزاء لإدارة عملية الالتزام على مرحلتين ، بالإضافة إلى انحرافات الساعة في كل عقدة. استخدمنا TAO كإجراء لخفض التكاليف في FB ، مما يسمح لنا بالحفاظ على استثمارنا في MySQL المُقسَّم. اختارت Google اتخاذ مسار مختلف باستخدام Spanner ، وهي قاعدة بيانات جديدة تمامًا مع إمكانات التوسع الأفقي وإمكانيات النسخ الجغرافي السلس وسهولة فشل البنية التحتية.
هناك العديد من الأسباب لاكتساب شعبية قواعد بيانات NoSQL. يستخدم النظام نهجًا مختلفًا لتخزين البيانات يكون أكثر كفاءة عند التعامل مع حجم كبير من البيانات.
يتم استخدام قواعد بيانات NoSQL من قبل عدد من الشركات المعروفة ، بما في ذلك Amazon و Netflix و Microsoft و Snapchat و Dropbox. كان اختيار قاعدة بيانات NoSQL أحد أفضل القرارات التي اتخذوها على الإطلاق لأن تطبيقاتهم تتعامل مع الكثير من البيانات.
نتيجة لذلك ، توفر قواعد بيانات NoSQL مرونة أكبر في كيفية تخزين الشركات للبيانات. نتيجة لذلك ، هناك تنظيم أفضل وإمكانية الوصول إلى البيانات. علاوة على ذلك ، تتمتع قواعد بيانات NoSQL بميزة كونها أسرع من حيث معالجة كميات كبيرة من البيانات.
من المنطقي تمامًا للشركات التي تحتاج إلى تخزين كمية كبيرة من البيانات للنظر في قواعد بيانات NoSQL. نتيجة لنهجهم الفريد في معالجة البيانات ، فهم قادرون على معالجة البيانات بسرعة أعلى وبكفاءة أكبر.
هل يستخدم تويتر قاعدة بيانات الرسم البياني
يحتفظ Twitter بالبيانات الأساسية مثل الرسوم البيانية للاهتمامات والجداول الزمنية وبيانات المستخدم في MySql. يحتوي Twitter على مئات المخططات وآلاف العقد التي تقدم ملايين الاستعلامات في الثانية في أكبر مجموعة. تُستخدم خدمة flockdb في حوسبة الرسم البياني.
تمت مناقشة استخدام قواعد بيانات الرسم البياني وتطبيقه على بيانات COVID-19 واللغة المفضلة للرسوم البيانية. بعد الدردشة ، يمكنك قراءة رؤاهم هنا. شارك في دردشة tweet الخاصة بنا في الساعة 1:00 مساءً بتوقيت شرق الولايات المتحدة اليوم بعنوان حالة قواعد بيانات الرسم البياني في عام 2020. سنقدم العديد من الأسئلة التي سيتم استخدامها لتسهيل المناقشة. ثبت أن قواعد بيانات الرسم البياني مفيدة جدًا في الماضي. نظرًا لقدرتها على توصيل البيانات ومعالجة كميات هائلة من البيانات والأداء الرائع ، فهي مطلوبة من قبل جميع المؤسسات ذات التفكير التحليلي. تتميز بحقيقة أنه يمكن استخدامها لربط البيانات من مصادر متعددة بدلاً من قواعد البيانات.
يمكن للمستخدمين الآن استخدام هذه الرسوم البيانية للاستفادة من وظائف محددة موجودة في قاعدة بيانات الرسم البياني أثناء تحليل البيانات. قد يتم تقديم العديد من المستخدمين الجدد إلى #knowledgegraph كحالة الاستخدام الأولى لأن العديد من الشركات تتطلب #analytics من مجموعة واسعة من مصادر البيانات المنظمة وغير المنظمة. عندما يتعلق الأمر بـ #NLP ودمج مخرجاته مع مصادر مختلفة ، فإن #graphdb هو الحل الأفضل. ستتم مناقشة COVID-19 بمزيد من التعمق في GraphDB Q2. # يمكن أن ترى GraphDB الكثير من الاستخدام في الربع الثاني كحل لتتبع جهات الاتصال. نتيجةً لذلك ، تكون البيانات غير عادلة للمؤسسات الكبيرة من حيث إمكانية البحث عن المعلومات وإمكانية الوصول إليها وقابليتها للتشغيل البيني وقابلة لإعادة الاستخدام. RDF * هو رسم بياني خاصية.
لا شك أن هناك ارتباك. الاتحاد موضوع مثير للاهتمام في الوقت الحالي. يجب استيعاب هذه البيانات في ملف #graphdbs. إذا قمت بنمذجه بشكل صحيح ، فلن تحتاج بالضرورة إلى استخدام RDF *. يعد استخدام علم بيانات الرسم البياني لتوصيل مجموعات البيانات المتباينة وربطها طريقة ممتازة للقيام بذلك. لا يوجد فرق كبير بين RDF * و LPG اليوم. عادةً ما يدعم البائعون الذين يدعمون RDF الخصائص ذات العلامات ، مما يسمح بأن تكون الطحالب الرسومية والوظائف التحليلية الأخرى غير مرئية تمامًا بواسطة RDFs السابقة.
هل يجب علي استخدام rdf أو sparcl بين جهاز الكمبيوتر وتطبيقات الجوال؟ في الواقع ، ليس من علم الصواريخ إنشاء خاصية من RDF ، لكن ML يمكن أن يولد ثلاثة أضعاف من الخصائص في #GraphDBstevesarfield Graph DBMS. عندما تنظر إلى الأنطولوجيا ، فأنت تصوغها وتتبعك للنوم. علاوة على ذلك ، بدأ محررونا في التفاعل مع سوق GraphDB. هدفنا هو تجميع قائمة شاملة بأفضل المنتجات المتاحة للمستهلكين. يمكن إنشاء رسم بياني معرفي باستخدام GraphDB من خلال الجمع بين البيانات المهيكلة وغير المهيكلة ، مما يسمح باستخدامه كأداة للتحليلات. سيجد العديد من المستخدمين أن هذا هو بداية رحلتهم إلى قواعد بيانات الرسم البياني في المستقبل.
لفترة طويلة ، كانت البرمجيات الحرة والمفتوحة المصدر المصدر الأساسي لمشاريع مفتوحة المصدر ، لكنها قد تكون في المقدمة مرة أخرى في المستقبل. # قد تكون GraphDB أفضل طريقة لتنظيم جميع المكونات المتباينة في نظام #IoT البيئي عندما تنضج في المؤسسات والنظم البيئية. تستخدم شركات بطاقات الائتمان GraphDB لاكتشاف أنماط النشاط المشبوهة. عندما تحتاج إلى دمج المخططات غير الكاملة مع مصادر أخرى غير كاملة ، فقد يكون استخدام #GraphDB خيارًا جيدًا. ابق على اتصال مع بعضكما البعض وحافظ على صحتك أيضًا. يوفر حل قاعدة بيانات GOLAP من Cambridge Semantics ، AnzoGraphDB ، السياق والمعنى على نطاق واسع في قاعدة بيانات الرسم البياني للمعالجة المتوازية الضخمة (MPP) في الذاكرة. يمكن تحجيم استعلام اجتياز الرسم البياني لتلبية متطلبات تخزين البيانات المعقدة والتحليلات ، ويمكنه أيضًا التعامل مع مساحات كبيرة من تجميع البيانات. جرب AnzoGraphDB مجانًا لمعرفة ما إذا كان يمكن أن يساعدك على إدارة مجموعة البيانات الضخمة الخاصة بك بشكل أفضل.
كيف يستخدم عمالقة وسائل التواصل الاجتماعي قواعد بيانات الرسم البياني لتحسين منصاتهم
تم استخدام MySQL ، وهو نظام لإدارة قواعد البيانات ، في الأصل لتخزين بيانات Twitter. لقد انتقلنا من طبعة قاعدة بيانات صغيرة إلى طبعة قاعدة بيانات كبيرة ، ثم من طبعة قاعدة بيانات كبيرة إلى أخرى. تم استخدام قاعدة بيانات Twitter لتخزين جميع معلومات المستخدم ، مما سمح لها بأن تصبح واحدة من أقوى شركات الوسائط الاجتماعية . تمكنت الشركة من تحسين نظامها الأساسي من خلال تحليل سلوك المستخدم وتتبع تقدمه. تم تشغيل محرك بحث Instagram في البداية بواسطة Elasticsearch ، وهو محرك بحث مدرك للرسم البياني الاجتماعي تم إنشاؤه بواسطة Facebook ، ولكن تم استبداله في النهاية بـ Unicorn. بالإضافة إلى استخدام قاعدة بيانات الرسم البياني لتتبع كيفية تفاعل المستخدمين ، يستخدمها Instagram لتتبع كيفية ارتباط المستخدمين. يمكن لـ Instagram تحسين تجربة المستخدم الخاصة به وتقديم محتوى أكثر صلة من خلال تحليل بيانات الوسائط الاجتماعية. يتم استخدام قواعد بيانات وتحليلات الرسم البياني بواسطة Facebook و Instagram و Twitter لاكتساب فهم أفضل لكيفية تفاعل المستخدمين مع بعضهم البعض ولإنشاء منصات أفضل.