Глава 4 — Моделирование Data Vault 2.0 Аннотация В этой главе рассматриваются сущности, используемые в моделировании Data Vault, включая хабы (Hubs), линки/связи (Links) и сателлиты (Satellites). Показано, как идентифицировать бизнес-ключи в исходных данных и связывать их с другими бизнес-ключами в ...
Что такое лицензия GitHub? Лицензия GitHub — это юридическая декларация, которая определяет, как другие могут использовать ваше программное обеспечение или код. По сути, это набор разрешений и ограничений, которые определяют, как ваш код может распространяться, изменяться и повторно использоваться. Кроме ...
ГЛАВА 3 – Методология Data Vault 2.0 Аннотация Методология Data Vault 2.0 представляет собой уникальный подход к разработке хранилищ данных и основана на нескольких гибких методологиях и техниках построения хранилищ данных, включая CMMI, Six Sigma, TQM, SDLC и анализ функциональных ...
ГЛАВА 2. Масштабируемая архитектура хранилища данных Масштабируемые хранилища данных, как желаемое решение некоторых проблем, рассмотренных в предыдущей главе, обладают определёнными архитектурными аспектами, которые объясняются в данной главе. Среди них: нагрузка, сложность данных, сложность запросов, доступность и задержка данных. В этой главе ...
Глава 1 «Введение в хранилища данных» Аннотация В этой главе вводится базовая терминология хранилищ данных, их применения и бизнес-контекст. Дается краткое описание их истории и направления развития. Представлены основные архитектуры хранилищ данных, принятые в индустрии. Описаны проблемы, с которыми сталкиваются ...
Пока размышляю над темой и пишу черновик статьи — здесь будет заглушка с полезными ссылками: https://github.com/DataExpert-io/llm-driven-data-engineering Data Engineer 2.0. Part I: Large Language Models Data Engineer 2.0. Part II: Retrieval Augmented Generation What are LLM Agents? LLM Data Engineering 3——Data ...
Что такое ACID? Представьте, что вы запускаете приложение электронной коммерции. Клиент размещает заказ, и ваша система должна вычесть товар из запасов, списать средства с кредитной карты клиента и зарегистрировать продажу в вашей системе учета — и все это одновременно. Что ...
Анатомия платформы данных Прежде чем мы перейдем к рассмотрению Data Pipeline Design Patterns, мы рассмотрим различные термины из архитектуры данных (платформа данных, DWH, Data Lake и т.д.). Различия между платформой данных, хранилищем данных и озером данных Прежде чем углубляться в ...
СТАТЬЯ В ПРОЦЕССЕ НАПИСАНИЯ СТАТЬЯ В ПРОЦЕССЕ НАПИСАНИЯ СТАТЬЯ В ПРОЦЕССЕ НАПИСАНИЯ СТАТЬЯ В ПРОЦЕССЕ НАПИСАНИЯ СТАТЬЯ В ПРОЦЕССЕ НАПИСАНИЯ СТАТЬЯ В ПРОЦЕССЕ НАПИСАНИЯ Что посмотреть на русском по Spark? Однозначно плейлист «DataLearn: DE-101 | Модуль 7». Здесь вы получите ...
Шаблоны обновлений данных в DWH Эта статья частично пересекается со статьей Понимание инкрементальных стратегий dbt, часть 1 (рекомендую ознакомиться). Изменение данных — одна из основных задач для команд инженерии данных, особенно при переходе от одной технологии к другой. Обсудим команды ...