Облако переворачивает преобразование деталей с ног на голову
Опубликовано: 2021-12-28Обычный метод преобразования информации извлечения, полного преобразования и загрузки (ETL) в настоящее время быстро переворачивается с ног на голову в модном повороте, обеспечиваемом облачными системами.
Сокращение расходов на облако, его адаптируемость и масштабируемость, а также огромные вычислительные возможности облачных хранилищ знаний привели к главному изменению: возможности загружать все факты в облако непосредственно перед его преобразованием. Это развитие означает, что только ETL была преобразована — в извлечение, загрузку и полное преобразование, или ELT.
ELT обеспечивает ряд преимуществ, в том числе детализированность хранения фактов, минимизацию потребности в дорогостоящих инженерах по приложениям и заметное сокращение времени выполнения проекта.
Преобразование информации:
Данные имеют решающее значение для корпораций, которые используют их, чтобы узнавать своих клиентов, определять новые перспективы и помогать лицам, принимающим решения, с жизненно важными и актуальными данными. Однако, чтобы оценить данные, они должны быть сначала структурированы. Он хочет быть понятым, чтобы его можно было использовать в информационных панелях, опыте и стилях прогнозирования.
Проблема в том, что сырые факты не представляются в виде фантастически отформатированных и пригодных для использования данных. Вот тут-то и начинается преобразование данных. Беспорядочные необработанные детали хотят быть переработанными в представления реальности, которые помогают людям достигать определенных амбиций.
Это преобразование может быть выполнено либо до того, как факты будут загружены в его местоположение, как правило, на складе сведений, либо позже.
Стандартный ETL:
В обычном ETL информация преобразуется в модели знаний, готовые к экзамену, непосредственно перед загрузкой. Как отмечает Чарльз Ванг из Fivetran, «сочетание преобразования с загрузкой в точный шаг может сохранить ресурсы хранения и вычислений, но вносит значительную долю уязвимости в рабочий процесс информационной инженерии. Это также означает, что программный пакет, используемый для преобразований, обычно создается с использованием языков сценариев, таких как Python и Java. Кроме того, преобразования в ETL могут потребовать потрясающего предложения сложной оркестровки с использованием таких инструментов, как Airflow».
ETL обычно также включает в себя потрясающее предложение кода, написанного на заказ. Таким образом, одним из основных вопросов традиционной ETL является доступность. Дефицитные, дорогие средства такого рода, как инженеры и ученые хотят быть вовлечены.
Дополнительная трудность связана с возвратными случаями. Обычные процедуры ETL, связанные с локальными информационными хранилищами, обычно занимают особенно много времени. Работа с ETL также включает в себя регулярное техническое обслуживание и может привести к сложности.
Современные методы преображения:
Память всегда была непомерно дорогой. Преимущество ETL для предприятий заключалось в том, что им не нужно было загружать все свои знания в конечное место. Это теперь было улучшено облачными системами. Мы наблюдаем огромный прогресс в использовании облачных технологий в Южной Африке, и плата за проектирование заметно снижается. Более низкие затраты позволяют предприятиям загружать всю свою информацию в облако, не заботясь о расходах на хранение.
Это говорит о том, что в современном рабочем процессе ELT необработанные знания преобразуются в полностью готовые к экзамену проекты деталей сразу после их загрузки. Находясь на складе, знания могут быть переработаны с использованием SQL, который, благодаря его интуитивно понятному синтаксису, зависящему от английского языка, может применяться значительно более широким кругом людей. В результате преобразование может быть выполнено пользователями организации, владеющими SQL, а не только теми, кто имеет ноу-хау в области кодирования.
Преобразование информации в настоящее время использует в основном облачные ресурсы и системы. В совокупности они составляют так называемый современный стек фактов (MDS).
Центральное место в этой MDS занимает высокоэффективная облачная система знаний, обычно облачное хранилище, которое также может включать озера деталей. Знания загружаются в него из ряда ресурсных программ, включая базы данных, веб-программы и API. Для этого используется авторитетный уровень преобразования для преобразования необработанных знаний в наборы данных для запроса всех наборов данных. И, наконец, совместное решение для аналитики и визуализации для малого бизнеса позволяет бизнесу взаимодействовать со знаниями и делать полезные выводы для выводов информационной компании.
В своей короткой статье под названием «Преобразование деталей» Ван отмечает, что MDS направляет информацию через следующие этапы:
- Ресурсы — данные из операционных баз данных, приложения SaaS, отслеживание событий
- Конвейер знаний - извлекает факты из ресурсов и собирает их в хранилище информации, иногда нормализуя их.
- Хранилище данных — хранит факты в реляционных базах данных, оптимизированных для аналитики.
- Устройство преобразования знаний - программное обеспечение, зависящее от SQL, которое использует данные из источника для создания новых моделей фактов в хранилище информации.
- Ресурс аналитики — инструменты для создания историй и визуализаций, таких как платформы для аналитики малого бизнеса.
Трансформация на складе деталей:
Преобразования настраиваются для создания определенного информационного дизайна, необходимого организациям для аналитики. Современный ELT отделяет извлечение и загрузку от преобразования. Это может позволить компаниям автоматизировать и передать на аутсорсинг этапы извлечения и загрузки метода интеграции данных. Затем они могут использовать сфокусированное устройство преобразования на основе SQL в то время, когда детали уже находятся на складе.
Ключевым преимуществом ELT является то, что факты в основном остаются в гранулированном виде из-за того, что они не претерпели больших преобразований перед загрузкой. С обычным ETL бизнес может агрегировать различные знания до загрузки, поэтому полностью отбрасывает свою первую степень детализации.
Новая архитектура ELT также обеспечивает значительную функциональность, гибкость и положительные аспекты цены. Загрузка происходит быстро, и организации могут хранить все свои знания в информационном хранилище, даже те, которые им, возможно, в настоящее время не нужны.
«Грубо говоря, переработанные стили информации только в хранилище информации могут быть представлениями или материализованными представлениями», — отмечает Ван. Далее он поясняет, что каждый раз, когда человек обращается к кассе, хранилище данных выполняет запрос, чтобы вернуть соответствующую информацию. Эти представления не сохраняются. «В идеальной земле с нулевой задержкой и неограниченными вычислительными средствами все преобразования в основном будут представлениями», — добавляет он.
Напротив, материализованные изображения сохраняются на диске, потому что изображения, созданные на лету из огромной таблицы или сложного вопроса, могут привести к тому, что склады данных задохнутся.
ELT:
Вероятно, в большинстве сценариев ELT следует называть EtLT, так как некоторая упрощенная трансформация или нормализация часто выполняется перед загрузкой знаний. Это устраняет избыточность, дублирование и производные значения. Он также организует таблицы из фактов в наиболее четкий возможный набор взаимосвязей, чтобы аналитики могли удобно интерпретировать базовый продукт данных ресурсного приложения и соответствующим образом создавать новые типы информации, подготовленные для оценки.
«Выходные данные трубопроводов извлечения и загрузки должны быть стандартизированы, если они переданы на аутсорсинг, автоматический ELT должен выполнять эту работу», — заявляет Ван. «Чтобы эффективно нормализовать информацию от ресурса, вы должны хорошо знать основные операции и детализированную модель приложения снабжения. Идеальный способ обойти эту проблему — поручить извлечение и загрузку команде, которая активно занимается информационным проектированием для этого определенного ресурса».
IT-специалисты, Keyrus