Facebook wykorzystuje bazy danych NoSQL

Opublikowany: 2022-11-22

Facebook wdrożył wiele baz danych NoSQL, aby pomóc mu skalować swój ogromny wykres społecznościowy. Te bazy danych obejmują Apache HBase, Apache Cassandra i Apache Thrift. Korzystając z tych baz danych NoSQL, Facebook jest w stanie zapewnić swoim użytkownikom szybkie i responsywne działanie, jednocześnie zachowując dużą ilość danych.

W bazie danych Facebooka przechowywane są profile ponad dwóch miliardów osób. Obecnie wiele krytycznych dla biznesu aplikacji korporacyjnych, takich jak SaaS dla wielu dzierżawców, opiera się na ogólnodostępnej, globalnie rozproszonej architekturze Facebooka, a zrozumienie ewolucji bazy danych Facebooka może przynieść wiele lekcji. Mystria, popularna baza danych o otwartym kodzie źródłowym , jest podstawą dla NoSQL Graph API FB, TAO. W rezultacie TAO przekształciło istniejące 1000 ręcznie utwardzonych serwerów podrzędnych MySQL z FB w niewolników podzielonych na fragmenty. W rezultacie aplikacja nie wykorzystuje już bazy danych do wykonywania transakcji cross-shard i wspólnych operacji. Ponadto, jeśli przeprowadzono nieudane przekroczenie, ostatnio zatwierdzone dane zostałyby utracone. Obiekty i powiązania są przechowywane w tym samym klastrze serwerów, bez wprowadzania zmian we fragmentu.

Ustalono, że stopień kolokacji danych jest ważną techniką optymalizacyjną ułatwiającą dostęp do danych o małych opóźnieniach. Kiedy FB zdecydował się porzucić SQL jako interfejs API zapytań i przyjąć niestandardowy interfejs API NoSQL firmy TAO, jego programiści całkowicie porzucili SQL. Google w przeciwieństwie do Facebooka tworzyło zupełnie nową bazę danych o nazwie Spanner, która jest globalnie spójna. Model danych Spannera był oparty na tradycyjnym OLTP o dostępie swobodnym, a nie na wykresie społecznościowym. Ogromna skalowalność i globalna dystrybucja danych są wbudowane w warstwę bazy danych drugiej generacji rozproszonych baz danych. Spanner stosuje konsensus rozproszony na fragment, aby zapewnić wysoką dostępność każdego fragmentu (a nie tylko jednej instancji) w przypadku awarii. Ta zmiana konfiguracji jest dokonywana w kontekście aplikacji i nadal działa normalnie.

Dane istotne dla regionu lokalnego mogą nadal znajdować się w tym samym regionie, jeśli włączone są funkcje geoprzestrzenne, takie jak partycjonowanie geograficzne na poziomie tabeli i wiersza. Zatwierdzenie dwufazowe jest używane w transakcjach obejmujących wiele fragmentów, a rozproszony menedżer transakcji śledzi przesunięcia zegara w węzłach. Zbudowaliśmy TAO na FB, aby utrzymać naszą obecną inwestycję w podzielony MySQL. Google postanowił zerwać z tradycją, tworząc Spanner, zupełnie nową bazę danych, która może skalować się w poziomie, replikować georeplikację i obsługiwać awarie infrastruktury tak, jakby miały miejsce.

Używamy MySQL na Facebooku z różnych powodów. Dzięki MySQL mały zespół może zarządzać tysiącami serwerów, zapewniając jednocześnie wysokiej jakości usługi po najniższych możliwych kosztach.

TAO, interfejs API wykresów NoSQL stworzony przez FB na początku 2009 roku, miał działać na Apache Cassandra opartym na MySQL. Głównym celem tej sekcji było wyeliminowanie problemów poruszonych w poprzedniej. TAO, skrót od Associations and Objects, odnosi się do skojarzeń i obiektów.

Wczesne przechowywanie danych na Facebooku w dużej mierze opierało się na relacyjnej bazie danych MySQL. Chociaż inżynierowie Facebooka zainspirowali się artykułem Google na temat baz danych Google BigTable NoSQL, stworzyli Cassandra, kolumnowy sklep rodzinny oparty na bazie danych NoSQL Facebooka.

Facebook ma relacyjny system baz danych, w którym przechowywane są jego podstawowe dane. Przechowuje wykresy społecznościowe i dane komunikatora Facebooka (ponad miliard użytkowników) dla ponad miliarda użytkowników korzystających z rozwidlenia MySql 5.6.

Czy Facebook używa Nosql?

Nie ma jednej uniwersalnej odpowiedzi na to pytanie, ponieważ wykorzystanie baz danych NoSQL różni się w zależności od konkretnych potrzeb poszczególnych aplikacji. Jednak ogólnie przyjmuje się, że Facebook używa kombinacji baz danych SQL i NoSQL do przechowywania i zarządzania dużą ilością danych.

Zarówno Cloud Datastore , jak i Cloud Firestore to doskonały wybór dla firm poszukujących bazy danych zorientowanej na dokumenty, którą można wykorzystać do analizy danych w czasie rzeczywistym. Cloud Firestore to doskonały wybór dla małych dokumentów ze względu na zoptymalizowaną architekturę i łatwość obsługi na urządzeniach mobilnych. Cloud Datastore został zaprojektowany do obsługi bardzo dużych obciążeń i automatycznego skalowania. Jest też wiele zastosowań.

Jak Facebook przechowuje dane w bazie danych?

Facebook przechowuje dane w relacyjnej bazie danych zorganizowanej w tabele. Dane są następnie przechowywane w kolumnach i wierszach w tabelach. Dane są przechowywane w postaci tekstu, liczb i dat.

Magazyn danych Facebooka w Prineville w stanie Oregon. Śledź wszystko, od wydarzeń, w których uczestniczysz, przez swój status (lub miłość, haha, wow, smutną lub wściekłą twarz), aż po oś czasu. Według szacunków obiekt Facebooka w Oregonie może mieć nawet 300 petabajtów pojemności. Przy takiej ilości danych moglibyśmy na nim przechowywać około 100 miliardów zdjęć średniej wielkości. Gdyby Facebook nie miał sposobu na zapewnienie bezpieczeństwa wszystkich Twoich postów, zdjęć, filmów, aktualizacji statusu itd. Jeśli tego nie zrobisz, Facebook nie będzie mógł zapamiętać, kim jesteś. Istnieje niewielka ilość miejsca (lub kilka milionów) zarezerwowana dla Ciebie, abyś mógł wyrazić siebie w sposób, którego naprawdę pragniesz.

Służy do personalizacji reklam i zwiększenia częstotliwości interakcji z Facebookiem. Istnieją pewne strony internetowe, które Facebook wie o tobie, a także reklamy, które widzisz, i posty, które lubisz.
Facebook sprzedaje te dane również firmom zewnętrznym. Cambridge Analytica, firma zajmująca się danymi, która pracowała nad kampanią prezydencką Donalda Trumpa, uzyskała dane osobowe 87 milionów użytkowników Facebooka.
Aby być bezpiecznym, musisz wiedzieć, w jaki sposób Facebook gromadzi i wykorzystuje Twoje dane, a także podejmować kroki w celu ochrony Twojej prywatności. Możesz usunąć swoje konto na Facebooku za pomocą narzędzia do ochrony prywatności Facebooka lub możesz między innymi wyłączyć piksel Facebooka i przycisk Facebook Like.
W wyniku niedawnego skandalu związanego z danymi pojawiły się obawy dotyczące Facebooka i firm zewnętrznych.
W trakcie afery Cambridge Analytica Facebook był krytykowany za brak przejrzystości i zbyt szybkie działanie. Mark Zuckerberg, dyrektor generalny Facebooka, ogłosił we wtorek, że weźmie urlop, aby uporać się ze skandalem.
Od czasu ujawnienia masowych naruszeń danych na Facebooku i WhatsApp, Mark Zuckerberg został poddany kontroli pod kątem braku odpowiedzialności i nieuwzględnienia obaw związanych z prywatnością.
Według oskarżeń Facebook manipuluje opiniami politycznymi poprzez wykorzystywanie danych użytkowników.
W wyniku podniesionych kwestii prywatności Facebook znalazł się pod ostrzałem za brak przejrzystości i brak rozwiązania tych problemów.
Twierdzono, że Facebook manipulował opiniami politycznymi swoich użytkowników, zbierając dane użytkowników.
Użytkownicy mają możliwość wykonania szeregu kroków.

Jak Facebook wykorzystuje Cassandrę?

Zdjęcie zrobione przez: eurekastreet.com.au

Cassandra wykorzystuje kombinację dobrze znanych technik skalowania i dostępności. Celem Cassandry było zajęcie się wymaganiami dotyczącymi pamięci masowej związanymi z problemem wyszukiwania w skrzynce odbiorczej. Wyszukiwanie w skrzynce odbiorczej to nowa funkcja, która umożliwia użytkownikom Facebooka wyszukiwanie wiadomości w skrzynce odbiorczej.

Facebook używa Cassandry jako wyszukiwarki poczty e-mail, z 25 TB i ponad 100 milionami skrzynek pocztowych. Facebook udostępnił Cassandrę jako open source na licencji Apache 1 lipca 2017 r. W tym filmie przyjrzymy się dogłębnie architekturze i projektowi Cassandry. Cassandra pierwotnie miała rozwiązać problem znajdowania adresów e-mail w skrzynce odbiorczej. Podczas zapisywania w memtable zawsze będziesz zapisywać w dzienniku zatwierdzeń (sekwencyjnym), który jest sekwencyjny dla każdego węzła w klastrze. Podczas konfiguracji przeczytaj następujące kroki, aby wyczyścić tabelę z dysku: * Brak miejsca * Nadmierne odstępy między klawiszami (domyślnie 128) * Czas trwania (klient dostarczony bez zegara). Zgodność z architekturą Staged Event-Driven Architecture (SEDA) i wykrywaniem awarii za pośrednictwem protokołu plotek. Ma 100 milionów użytkowników, 4B wątków i 25 TB danych i może obsługiwać Hadoop z prędkością 1,5 TB na godzinę.

Sheen jest wyłączony: Facebook porzuca Cassandrę na rzecz Mysql

Zamiast Cassandry, Facebook wybrał Hbase do zbudowania swojego systemu przesyłania wiadomości. Ze względu na swoją rozproszoną architekturę korzystanie z Cassandry było dla Netflix naturalnym wyborem, a do 2013 r. większość jego danych była tam przechowywana i nadal z niej korzysta. Facebook używa MySQL zamiast Cassandry, jeśli chodzi o przechowywanie danych. Podstawową bazą danych używaną przez Facebooka do przechowywania wszystkich danych z mediów społecznościowych jest MySQL. Stworzyli pierwszy silnik bazy danych MyRocksDB, a następnie silnik bazy danych MySQL InnoDB. MySQL i Memcache zostały połączone w celu utworzenia pamięci podręcznej.

Baza danych Nosql używana przez Facebooka

Facebook przechowuje wszystkie swoje dane z mediów społecznościowych w MySQL, podstawowej bazie danych, na której polega.

Proces zbierania danych z bazy danych nazywany jest jej gromadzeniem. Może być używany na różne sposoby do przechowywania i analizowania danych. DBMS to system zarządzania bazą danych, który działa w określonej bazie danych. Aby śledzić różne rodzaje informacji, którymi dzielą się ze sobą ludzie na całym świecie, Facebook wykorzystuje wiele baz danych. System pamięci masowej Cassandra jest przeznaczony do zarządzania dużymi ilościami struktur danych. Ta aplikacja została stworzona, aby rozwiązać problem znajdowania najlepszych wyników wyszukiwania w Inbox, który był spowodowany brakiem miejsca. Ta metoda buforowania wykorzystuje tylko rozwiązania w pamięci. W takim przypadku współdzielony dostęp do puli pamięci masowej jest oferowany w przystępnej cenie.

Kasandra vs. Cloud Bigtable vs. Amazon Dynamodb

Cassandra to jedna z najpopularniejszych opcji przechowywania zaplecza dla Facebooka, ustępując tylko Google i Amazon. Dzięki Cloud Bigtable możesz uruchamiać obciążenia analityczne i operacyjne w wysoce wydajnej usłudze bazy danych NoSQL. Amazon DynamoDB to bezserwerowa baza danych NoSQL o wartości klucza, którą można wdrażać na dowolną skalę i jest idealna do zastosowań o wysokiej wydajności.

Baza danych używana przez Facebooka

Facebook używa systemu zarządzania relacyjną bazą danych (RDBMS) do przechowywania i organizowania danych. RDBMS to rodzaj bazy danych, która przechowuje dane w tabelach, a każda tabela jest połączona z innymi tabelami za pomocą relacji. Facebook korzysta z niestandardowego systemu RDBMS, który został zaprojektowany do obsługi ogromnych ilości danych generowanych przez użytkowników Facebooka.

Z Facebooka korzysta ponad miliard ludzi. Użytkownicy wyrażają siebie i wchodzą w interakcje z rówieśnikami i przyjaciółmi za pomocą postów na ścianie. Pomimo obsługi setek milionów użytkowników, inżynierowie Facebooka zostali zmuszeni do zapewnienia płynnego działania witryny. Ten artykuł przedstawia czytelnikom niektóre narzędzia i metody, które stosują, aby osiągnąć swoje cele. Facebook stosuje różne systemy, aby zapewnić jak największą dynamikę swojej witryny, która ma ponad 500 milionów użytkowników. Jeśli potrzebujesz skalowalności i wysokiej dostępności przy jednoczesnym utrzymaniu wydajności na wysokim poziomie, Apache Cassandra jest doskonałym wyborem. System logowania Scribe umożliwia Facebookowi wewnętrzne logowanie z różnych powodów. Varnish może być używany jako akcelerator HTTP do obsługi błyskawicznego równoważenia obciążenia i zawartości pamięci podręcznej.

Co to jest Facebook?
To ujawnienie infrastruktury centrum danych Facebooka ma istotne implikacje z wielu powodów. Po pierwsze, pokazuje zaangażowanie Facebooka w stałą jakość usług. Ponadto centrum danych ma niespotykany dotąd poziom dostępu do operacji Facebooka. Na koniec podkreśla znaczenie automatycznego skalowania, które Facebook wykorzystuje do zarządzania ruchem i optymalizacji wydajności.

Dlaczego Facebook używa Mysql

Wraz z rozwojem Facebooka, a SQL i MySQL stały się wszechobecne, przekształcił się w aplikację PHP, która wykorzystywała MySQL jako trwałą bazę danych i memcache jako „podręczną” pamięć podręczną. Facebook zatrudnia obecnie ponad 1000 serwerów MySql do przechowywania swoich danych, co jest określane jako uniwersalna baza danych (z wieloma dzierżawcami). Baza danych jest silnie partycjonowana i replikowana. Aby zmniejszyć liczbę fragmentów wymaganych do znalezienia danych, wszystkie powiązane dane są przechowywane we fragmentu. Co to jest baza danych używana przez Netflix? Oracle to najpopularniejszy system trwałości danych w centrum danych Netflix. MySQL jest używany w infrastrukturze rekomendacji filmów w niektórych obszarach. Bazy danych w obu są relacyjnymi bazami danych .

Baza danych Facebooka

Baza danych Facebooka to zbiór danych, który jest organizowany i przechowywany przez portal społecznościowy Facebook. Dane te mogą obejmować informacje o użytkownikach, ich znajomych i ich aktywności w serwisie. Baza danych Facebooka służy do zasilania funkcji i funkcji witryny.

Jak Cassandra stała się magazynem danych dla Facebooka

Ze względu na elastyczność modelowania danych SQL i powszechne użycie MySQL, gdy po raz pierwszy uruchomiono FB, MySQL był początkowo używany jako trwała baza danych, a memcache był używany jako „patrząca” pamięć podręczna dla wykresu społecznościowego.
Petabajt danych waży codziennie na Facebooku około miliona gigabajtów. Petabajt to około 300 petabajtów danych, a wszystko to znajduje się w obiekcie Hive.
Pomimo całkowitego porzucenia Cassandry przez Facebooka, nadal jest ona używana przez duże firmy, takie jak Twitter, Netflix i Apple, by wymienić tylko kilka. Z drugiej strony DataStax ma wersję narzędzia dostępną dla wielu innych firm.
W rezultacie, podczas gdy Facebook nie przechowuje już własnych danych w Cassandrze, inne firmy to robią.

Nowa baza danych Nosql

Baza danych NoSQL, która nie jest oparta na SQL, jest definiowana jako taka, która gromadzi dane w inny sposób niż relacyjna baza danych. Bazy danych tabel nie wymagają stałych zestawów kolumn w tabelach, są zgodne ze skalowaniem poziomym i nie wymagają połączeń JOIN, takich jak relacyjne bazy danych. Rodzaje baz danych NoSQL różnią się w zależności od używanego modelu danych.

Jest to jeden z najczęściej używanych typów baz danych w branży do różnych celów. Istnieje kilka zalet korzystania z przetwarzania w chmurze w porównaniu z tradycyjnymi bazami danych , takich jak łatwość obsługi, zwiększona pojemność pamięci masowej w chmurze i lepsze bezpieczeństwo danych. Bazy danych NoSQL są wykorzystywane do wielu różnych celów, w tym do dokumentacji medycznej, dokumentacji finansowej i innych baz danych. Baza danych dokumentów RavenDB NoSQL obsługuje transakcje ACID (niepodzielność, spójność, izolacja i trwałość) i jest solidną bazą danych NoSQL z solidnymi możliwościami typu dokumentów. Dzięki Couchbase możesz stworzyć aplikację mobilną i Internet of Things (IoT). Możesz także użyć ArangoDB do wyszukiwania i wyświetlania wykresów, dokumentów i innych danych. OrientDB to jedna z pierwszych baz danych NoSQL, która zawiera obsługę wielu modeli wykresów i dokumentów.

Możesz uznać Neo4j za realną opcję, jeśli potrzebujesz więcej kontekstu w swojej bazie danych, aby uzyskać wgląd w swoje dane. MongoDB udostępnia inną platformę o nazwie Realm, która umożliwia szybkie tworzenie, testowanie i wydawanie aplikacji mobilnych. Baza danych MarkLogic została stworzona do obsługi wielomodelowych baz danych, a także obciążeń wymagających możliwości NoSQL. Baza danych MarkLogic to dobra platforma bazy danych NoSQL do przechowywania danych relacji i prowadzenia prac analitycznych. Jeśli nie chcesz iść na kompromis, najlepszym rozwiązaniem jest w pełni zarządzane rozwiązanie.

Architektura bazy danych Fb

Architektura bazy danych fb to potężne narzędzie, które może pomóc w organizowaniu i zarządzaniu danymi. Jest to elastyczny system, który można dostosować do własnych potrzeb. Dzięki fb możesz łatwo przechowywać i pobierać dane z różnych źródeł.

Facebook stosuje architekturę stosu z buforowanymi wykresami dla wszystkiego powyżej dolnego końca MySQL. Innymi słowy, oznacza to, że relacyjna baza danych nie działa lepiej niż grafowa baza danych . Oprócz znajomych znajomych, wykonywanie złożonych zapytań jest trudniejsze niż wykonywanie prostych zapytań, takich jak „Wszystkie lokalizacje wokół danej współrzędnej”. Wykres jest w tym przypadku najlepszym rozwiązaniem. W przypadku nieco ponad 1 miliona użytkowników zostanie wydane 1,8 sekundy, podczas gdy w przypadku nieco ponad 100 000 użytkowników zostanie wydane 18 sekund. Jeśli masz więcej niż jednego użytkownika uruchamiającego to samo zapytanie, pamiętaj, że nie jest to jedyne zapytanie, które próbujesz wykonać. Odpowiedź na pytanie, jak Facebook zaprojektował swoje relacje ze znajomymi, jest taka, że są one bardzo dobrze zaprojektowane. Serdecznie przepraszam za to, że nie jestem w stanie pomóc w jego realizacji.