<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>data fabric - DataTalks.RU. Data Engineering / DWH / Data Pipeline</title>
	<atom:link href="https://datatalks.ru/tag/data-fabric/feed/" rel="self" type="application/rss+xml" />
	<link>https://datatalks.ru/tag/data-fabric/</link>
	<description>RoadMap для инженера данных. Дорожная карта по инструментам Data Engineer</description>
	<lastBuildDate>Tue, 07 Jan 2025 17:16:30 +0000</lastBuildDate>
	<language>ru-RU</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://datatalks.ru/wp-content/uploads/2024/12/cropped-logo_datatalks-32x32.png</url>
	<title>data fabric - DataTalks.RU. Data Engineering / DWH / Data Pipeline</title>
	<link>https://datatalks.ru/tag/data-fabric/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Глава 2 &#171;Типы архитектур данных&#187;</title>
		<link>https://datatalks.ru/types-of-data-architectures/</link>
					<comments>https://datatalks.ru/types-of-data-architectures/#respond</comments>
		
		<dc:creator><![CDATA[Data Engineer (Admin)]]></dc:creator>
		<pubDate>Tue, 07 Jan 2025 07:14:24 +0000</pubDate>
				<category><![CDATA[Data Architecture / Data Modeling]]></category>
		<category><![CDATA[data architecture]]></category>
		<category><![CDATA[data fabric]]></category>
		<category><![CDATA[data lake]]></category>
		<category><![CDATA[data lakehouse]]></category>
		<category><![CDATA[data mesh]]></category>
		<category><![CDATA[modern data warehouse]]></category>
		<category><![CDATA[relational data warehouse]]></category>
		<guid isPermaLink="false">https://datatalks.ru/?p=520</guid>

					<description><![CDATA[<p>Перевод второй главы из книги Deciphering Data Architectures Глава 2 &#171;Типы архитектур данных&#187; Крайне важно с самого начала уделить время проектированию и созданию правильной архитектуры данных. Я усвоил это на собственном опыте в начале своей карьеры. Мне так хотелось поскорее приступить к разработке своего решения, что я упустил из виду важные решения относительно архитектуры и [&#8230;]</p>
<p>Сообщение <a href="https://datatalks.ru/types-of-data-architectures/">Глава 2 &#171;Типы архитектур данных&#187;</a> появились сначала на <a href="https://datatalks.ru">DataTalks.RU. Data Engineering / DWH / Data Pipeline</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p><em>Перевод второй главы из книги Deciphering Data Architectures</em></p>
<h1>Глава 2 &#171;Типы архитектур данных&#187;</h1>
<p>Крайне важно с самого начала уделить время проектированию и созданию правильной архитектуры данных. Я усвоил это на собственном опыте в начале своей карьеры. Мне так хотелось поскорее приступить к разработке своего решения, что я упустил из виду важные решения относительно архитектуры и выбора продуктов. Спустя три месяца после начала проекта я понял, что архитектура не поддерживает некоторые из необходимых источников данных. Нам фактически пришлось начать проект заново, разработав новую архитектуру и выбрав другие инструменты, что привело к огромным временным и финансовым потерям. Без правильного планирования пользователи не смогут получить ценность от вашего решения, будут недовольны нарушением сроков, а ваша компания рискует всё больше отставать от конкурентов.</p>
<p><strong>При создании решения для работы с данными вам нужен тщательно продуманный план.</strong> Здесь и приходит на помощь архитектура данных. <span style="color: #ff6600;"><strong>Архитектура данных определяет высокоуровневый подход и концепцию, описывает набор технологий и указывает поток данных, который будет использоваться для создания вашего решения для работы с большими данными.</strong></span> Выбор подходящей архитектуры может быть весьма сложной задачей, так как не существует универсального решения. Вы не найдёте в книге готовый перечень архитектур с соответствующими продуктами. Нет простого алгоритма с деревом решений, который приведёт вас к идеальной архитектуре. Ваш подход к архитектуре и используемые технологии будут сильно варьироваться в зависимости от клиентов и сценариев использования.</p>
<p>Ключевые типы высокоуровневых архитектурных подходов и концепций – именно то, о чём эта книга. Это не готовый перечень решений, но он даст вам общее представление о каждой из них. Хотя полезно классифицировать архитектуры данных по их характеристикам, что я и сделаю в этой книге, это не значит, что вам нужно выбирать из заранее определённых шаблонов. Каждая архитектура данных уникальна и требует индивидуального подхода для удовлетворения конкретных бизнес-потребностей.</p>
<p><strong>Архитектура данных</strong> – это общая концепция проектирования и организации данных в информационной системе. Использование заранее определённых шаблонов архитектуры может показаться лёгким способом быстро настроить новую систему. Однако такие шаблоны часто не учитывают специфические требования и ограничения системы, для которой они применяются, что может привести к проблемам с качеством данных, производительностью системы и её обслуживанием. Кроме того, потребности организации и системы обработки данных, скорее всего, будут меняться со временем, требуя обновлений и корректировок архитектуры данных. Стандартизированный шаблон может оказаться недостаточно гибким, чтобы адаптироваться к этим изменениям, что создаст неэффективность и ограничения в системе.</p>
<p>Эта глава предлагает <strong>краткий обзор основных типов архитектур</strong>, которые будут подробно рассмотрены в книге:</p>
<ul>
<li>реляционные хранилища данных (relational data warehouse),</li>
<li>озёра данных (data lake),</li>
<li>современные хранилища данных (modern data warehouse),</li>
<li>фабрика данных (data fabric),</li>
<li>озеро-хранилище данных или гибридное хранилище данных (data lakehouse),</li>
<li>и сетка данных (data mesh).</li>
</ul>
<p>Каждому типу будет посвящена отдельная глава с детальным описанием.</p>
<h2>Эволюция архитектур данных</h2>
<p>Реляционная база данных хранит данные в структурированном виде, где связи между элементами данных определяются с помощью ключей. Данные обычно организованы в таблицы, каждая из которых состоит из строк и столбцов. Каждая строка представляет отдельный экземпляр данных, а каждый столбец — конкретный атрибут данных.</p>
<p>Реляционные базы данных предназначены для работы со структурированными данными и предоставляют инструментарий для создания, изменения и запроса данных с использованием стандартизированного языка, известного как <strong>SQL (Structured Query Language)</strong>. Реляционная модель была впервые предложена Эдгаром Ф. Коддом в 1970 году, и с середины 1970-х годов она стала доминирующей моделью для систем управления базами данных. Большинство операционных приложений требуют постоянного хранения данных, и для этого чаще всего используются реляционные базы данных.</p>
<p>В реляционных базах данных, где на первом месте стоят согласованность и целостность данных, используется подход, называемый <span style="color: #ff6600;"><strong>schema-on-write (схема на запись)</strong></span>. <strong>Схема</strong> — это формальная структура, которая определяет организацию и взаимосвязи между таблицами, полями, типами данных и ограничениями. Она служит чертежом для хранения и управления данными, обеспечивая их согласованность, целостность и эффективную организацию внутри базы данных. Реляционные базы данных (и реляционные хранилища данных) требуют некоторой предварительной работы перед тем, как данные попадут в систему. Сначала необходимо создать базу данных, её таблицы, поля и схему, а затем написать код для передачи данных в базу. <span style="color: #ff6600;"><strong>При подходе schema-on-write</strong></span> схема данных определяется и применяется на этапе записи или загрузки данных в базу. Данные должны соответствовать заранее определённой схеме, включая типы данных, ограничения и связи, прежде чем они могут быть сохранены.</p>
<p>Для сравнения, <strong>при подходе schema-on-read</strong> схема применяется на этапе чтения или доступа к данным, а не записи. Данные могут загружаться в систему хранения без строгого соответствия схеме, и структура определяется только при запросе или использовании данных. Этот подход обеспечивает большую гибкость при работе с неструктурированными или полуструктурированными данными и обычно используется в озёрах данных, которые будут рассмотрены позже в этой главе.</p>
<p>На высоком уровне архитектуры данных предоставляют рамки для организации и управления данными, чтобы удовлетворять потребности организации.</p>
<p><strong>Это включает:</strong></p>
<ul>
<li>Определение способов сбора, хранения, обработки и доступа к данным.</li>
<li>Поддержание качества, безопасности и конфиденциальности данных.</li>
</ul>
<h2>Общие элементы архитектур данных</h2>
<h3><strong>Хранение данных</strong></h3>
<p>Все архитектуры данных должны указывать, как данные хранятся, включая физический носитель (например, жёсткие диски или облачное хранилище) и структуры данных, используемые для их организации.</p>
<h3><strong>Обработка данных</strong></h3>
<p>Архитектуры данных должны определять, как обрабатываются данные, включая трансформации или вычисления, выполняемые над данными до их хранения или анализа.</p>
<h3><strong>Доступ к данным</strong></h3>
<p>Архитектуры данных должны предоставлять механизмы доступа к данным, включая пользовательские интерфейсы и API, которые позволяют запрашивать и анализировать данные.</p>
<h3><strong>Безопасность и конфиденциальность данных</strong></h3>
<p>Архитектуры данных должны включать механизмы для обеспечения безопасности и конфиденциальности данных, такие как контроль доступа, шифрование и маскирование данных.</p>
<h3><strong>Управление данными</strong></h3>
<p>Архитектуры данных должны предоставлять рамки для управления данными, включая стандарты качества, отслеживание происхождения данных и политики хранения.</p>
<h2>Основная цель архитектуры данных</h2>
<p><strong>Главная задача архитектуры данных</strong> — позволить организации эффективно управлять своими данными и использовать их для поддержки бизнес-целей и процесса принятия решений.</p>
<p>В Таблице 2-1 приведено высокоуровневое сравнение характеристик архитектур данных, описанных в этой книге. Это поможет вам начать определять, какая архитектура может лучше всего подойти для вашего сценария использования.</p>
<p><strong>Таблица 2-1. Сравнение архитектур данных</strong></p>
<p><a href="https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures.png" target="_blank" rel="noopener"><img fetchpriority="high" decoding="async" class="aligncenter wp-image-617 size-full" src="https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures.png" alt="" width="1054" height="950" srcset="https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures.png 1054w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures-300x270.png 300w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures-1024x923.png 1024w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures-768x692.png 768w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures-450x406.png 450w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures-780x703.png 780w" sizes="(max-width: 1054px) 100vw, 1054px" /></a></p>
<p>или переведенная версия таблицы:</p>
<p><a href="https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures_translated.png" target="_blank" rel="noopener"><img decoding="async" class="aligncenter wp-image-619 size-full" src="https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures_translated.png" alt="" width="1082" height="776" srcset="https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures_translated.png 1082w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures_translated-300x215.png 300w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures_translated-1024x734.png 1024w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures_translated-768x551.png 768w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures_translated-450x323.png 450w, https://datatalks.ru/wp-content/uploads/2025/01/datatalks_Comparison_of_data_architectures_translated-780x559.png 780w" sizes="(max-width: 1082px) 100vw, 1082px" /></a></p>
<h2>Реляционное хранилище данных (Relational Data Warehouse, RDW)</h2>
<p>Реляционные базы данных были основным инструментом хранения данных в течение нескольких десятилетий. Первое реляционное хранилище данных, использовавшееся в производстве, было разработано в Стэнфордском университете доктором Джеком Э. Шемером, основателем корпорации Teradata в 1979 году. Первую систему Teradata установил банк Wells Fargo в 1983 году для анализа финансовых данных.</p>
<p>По мере того как организации начали генерировать огромные объёмы данных, становилось всё сложнее обрабатывать и анализировать эти данные без значительных задержек. Ограничения реляционных баз данных привели к созданию <strong>реляционных хранилищ данных (RDW)</strong>, которые стали популярными в конце 1980-х годов, примерно через 15 лет после появления реляционных баз данных.</p>
<p><strong>Реляционное хранилище данных (RDW)</strong> — это специфический тип реляционной базы данных, предназначенный для приложений хранилища данных и бизнес-аналитики, с оптимизированной производительностью запросов и поддержкой крупномасштабного анализа данных. Хотя как реляционные хранилища, так и транзакционные системы используют реляционную модель для организации данных, хранилища данных обычно больше по масштабу и оптимизированы для аналитических запросов.</p>
<p>RDW имеет вычислительный механизм (compute engine) и хранилище. Вычислительный механизм предоставляет мощность для выполнения запросов к данным, а хранилище — это реляционное хранилище, организованное в таблицы, строки и столбцы. Мощность RDW может использоваться только для данных, находящихся в его реляционном хранилище — они связаны друг с другом.</p>
<p><strong>Ключевые функции RDW включают:</strong></p>
<ul>
<li>Поддержку транзакций (обеспечение надёжной и согласованной обработки данных).</li>
<li>Журналирование операций (запись всей активности в системе).</li>
<li>Принудительное соблюдение схемы (гарантия того, что данные организованы и структурированы в соответствии с заданной схемой).</li>
</ul>
<p>В 1970–1980-х годах реляционные базы данных использовались для операционных приложений, таких как обработка заказов и управление запасами. Эти приложения называются <strong>OLTP-системами (Online Transaction Processing)</strong>. Они позволяют создавать, читать, обновлять и удалять данные в базе — операции, известные как <strong>CRUD (Create, Read, Update, Delete)</strong>.</p>
<p>CRUD-операции требуют быстрой реакции приложений, чтобы пользователи не испытывали неудобств из-за медленных обновлений данных. Запросы и отчёты в реляционной базе, используемой операционными приложениями, могут сильно загружать ресурсы и конфликтовать с другими CRUD-операциями, замедляя всю систему.</p>
<p>RDW были изобретены, чтобы решить эту проблему. Данные из реляционной базы копируются в хранилище данных, где пользователи могут выполнять запросы и отчёты без нагрузки на операционную систему, как показано на Рисунке 2-1.</p>
<p><strong>Рисунок 2-1. Data warehousing</strong></p>
<p><a href="https://datatalks.ru/wp-content/uploads/2024/12/2_1_data_warehousing.png" target="_blank" rel="noopener"><img decoding="async" class="aligncenter wp-image-605 size-full" src="https://datatalks.ru/wp-content/uploads/2024/12/2_1_data_warehousing.png" alt="" width="786" height="467" srcset="https://datatalks.ru/wp-content/uploads/2024/12/2_1_data_warehousing.png 786w, https://datatalks.ru/wp-content/uploads/2024/12/2_1_data_warehousing-300x178.png 300w, https://datatalks.ru/wp-content/uploads/2024/12/2_1_data_warehousing-768x456.png 768w, https://datatalks.ru/wp-content/uploads/2024/12/2_1_data_warehousing-450x267.png 450w, https://datatalks.ru/wp-content/uploads/2024/12/2_1_data_warehousing-780x463.png 780w" sizes="(max-width: 786px) 100vw, 786px" /></a></p>
<h2>Озеро данных</h2>
<p><strong>Озеро данных (Data Lake)</strong> — более современная концепция, впервые появившаяся около 2010 года. Озеро данных можно представить как усовершенствованную файловую систему, аналогичную файловой системе на вашем ноутбуке. В отличие от реляционного хранилища данных, озеро данных — это только хранилище, без вычислительного механизма.</p>
<p>Однако с озёрами данных могут работать множество вычислительных систем, благодаря чему обработка данных обходится дешевле, чем в RDW. Ещё одно отличие заключается в том, что RDW используют реляционное хранилище, где данные структурированы в строки и столбцы, а озёра данных используют объектное хранилище, где структура не требуется.</p>
<p>Технология хранения озёр данных началась с <strong>HDFS (Hadoop Distributed File System)</strong>, бесплатной технологии с открытым исходным кодом, популярной в начале 2010-х годов и размещаемой почти исключительно локально. <strong>HDFS</strong> — это масштабируемая, отказоустойчивая распределённая система хранения, работающая на обычном оборудовании.</p>
<p>С развитием облачных технологий озёра данных переместились в облако, где используются другие типы хранения. Сегодня большинство озёр данных находится в облаке.</p>
<p>В отличие от RDW, <strong>озёра данных используют <span style="color: #ff6600;">подход schema-on-read</span></strong>, что означает отсутствие необходимости заранее готовить данные для загрузки в озеро. Данные сохраняются в исходном (сыром) формате, как они поступают из исходной системы. Например, экспортированные из реляционной базы данные в формате CSV могут быть загружены в озеро данных без изменений. Для загрузки этих данных в RDW их пришлось бы преобразовать в строки и столбцы таблицы.</p>
<p>При загрузке файла данных в озеро его схема может отсутствовать или находиться в отдельном файле. Поэтому схема определяется при чтении, либо создаётся, либо извлекается из файла, как показано на Рисунке 2-2.</p>
<p>Данные из различных источников — операционных баз данных, датчиков, социальных сетей — могут попадать в озеро данных. Эти файлы могут содержать <strong>структурированные</strong> (например, реляционные базы данных), <strong>полуструктурированные</strong> (CSV, JSON, XML) и <strong>неструктурированные</strong> (электронная почта, документы, PDF) данные, а также <strong>двоичные данные</strong> (изображения, аудио, видео).</p>
<p><strong>Рисунок 2-2. Озеро данных</strong></p>
<p><a href="https://datatalks.ru/wp-content/uploads/2024/12/2_2_data_lake.png" target="_blank" rel="noopener"><img loading="lazy" decoding="async" class="aligncenter wp-image-606 size-full" src="https://datatalks.ru/wp-content/uploads/2024/12/2_2_data_lake.png" alt="" width="949" height="721" srcset="https://datatalks.ru/wp-content/uploads/2024/12/2_2_data_lake.png 949w, https://datatalks.ru/wp-content/uploads/2024/12/2_2_data_lake-300x228.png 300w, https://datatalks.ru/wp-content/uploads/2024/12/2_2_data_lake-768x583.png 768w, https://datatalks.ru/wp-content/uploads/2024/12/2_2_data_lake-450x342.png 450w, https://datatalks.ru/wp-content/uploads/2024/12/2_2_data_lake-780x593.png 780w" sizes="(max-width: 949px) 100vw, 949px" /></a></p>
<p>Озёра данных изначально создавались как решение всех проблем реляционных хранилищ данных, таких как высокая стоимость, ограниченная масштабируемость, низкая производительность, сложность подготовки данных и ограниченная поддержка сложных типов данных. Компании, продававшие Hadoop и озёра данных, такие как Cloudera, Hortonworks и MapR, представляли их как волшебное решение, которое автоматически копирует, очищает и делает данные доступными для конечных пользователей. Они утверждали, что озёра данных могут полностью заменить реляционные хранилища данных, предлагая подход «одна технология для всего». Многие компании решили сэкономить, используя бесплатные инструменты с открытым исходным кодом для всех своих нужд.</p>
<p>Однако на практике запросы к озёрам данных оказались далеко не такими простыми: для работы с ними требовались серьёзные навыки. ИТ-отделы говорили конечным пользователям: «Мы скопировали все данные, которые вам нужны, в озеро данных. Просто откройте Jupyter Notebook, используйте Hive и Python, чтобы создавать отчёты с файлами из этих папок». Такой подход провалился, поскольку у большинства пользователей не было необходимых навыков для выполнения этих задач.</p>
<p>Компании на собственном опыте убедились, что такие сложные и трудные в использовании решения оказывались дороже из-за высоких затрат на оборудование и поддержку, задержек в производстве и снижения производительности. Кроме того, озёра данных не обладали такими функциями, как поддержка транзакций, строгое соблюдение схемы и журналирование операций, которые ценились в хранилищах данных. В результате две из трёх ведущих компаний, продававших озёра данных (Hortonworks и MapR), обанкротились.</p>
<p>Тем не менее озёра данных не исчезли. <strong>Их роль трансформировалась: теперь они используются для промежуточного хранения и подготовки данных.</strong> Эта тема подробно рассматривается в главе 5.</p>
<h2>Modern Data Warehouse (Современное хранилище данных)</h2>
<p>Реляционные хранилища данных и озёра данных сами по себе являются простыми архитектурами. Они используют только одну технологию для централизации данных и редко включают дополнительные продукты. Однако, добавляя больше технологий и инструментов для поддержки реляционных хранилищ или озёр данных, можно создать более сложные архитектуры, описанные в этой и следующих главах.</p>
<p>Озёра данных не смогли заменить реляционные хранилища данных, но остались полезными для промежуточного хранения и подготовки данных. Почему бы не объединить преимущества обоих подходов?</p>
<p>Примерно с 2011 года многие компании начали разрабатывать архитектуры, в которых озёра данных существуют рядом с реляционными хранилищами данных. Такой подход сформировал архитектуру, известную как <strong>современное хранилище данных (Modern Data Warehouse, MDW)</strong>, изображённое на Рисунке 2-3.</p>
<p><strong>Рисунок 2-3. Современное хранилище данных (MDW)</strong></p>
<p><a href="https://datatalks.ru/wp-content/uploads/2024/12/2_3_modern_data_warehouse_MDW.png" target="_blank" rel="noopener"><img loading="lazy" decoding="async" class="aligncenter wp-image-607 size-full" src="https://datatalks.ru/wp-content/uploads/2024/12/2_3_modern_data_warehouse_MDW.png" alt="" width="1412" height="276" srcset="https://datatalks.ru/wp-content/uploads/2024/12/2_3_modern_data_warehouse_MDW.png 1412w, https://datatalks.ru/wp-content/uploads/2024/12/2_3_modern_data_warehouse_MDW-300x59.png 300w, https://datatalks.ru/wp-content/uploads/2024/12/2_3_modern_data_warehouse_MDW-1024x200.png 1024w, https://datatalks.ru/wp-content/uploads/2024/12/2_3_modern_data_warehouse_MDW-768x150.png 768w, https://datatalks.ru/wp-content/uploads/2024/12/2_3_modern_data_warehouse_MDW-450x88.png 450w, https://datatalks.ru/wp-content/uploads/2024/12/2_3_modern_data_warehouse_MDW-780x152.png 780w" sizes="(max-width: 1412px) 100vw, 1412px" /></a></p>
<p><strong>Современное хранилище данных сочетает лучшие стороны обоих подходов:</strong> <span style="color: #ff6600;"><strong>озеро данных</strong></span> используется для промежуточного хранения и подготовки данных, а также для построения моделей машинного обучения. <span style="color: #ff6600;"><strong>Хранилище данных</strong></span> служит для управления, безопасности и соблюдения нормативных требований, а бизнес-пользователи используют его для запросов и отчётов. Подробности о современных архитектурах хранилищ данных можно найти в главе 10.</p>
<h2>Data Fabric (Фабрика данных)</h2>
<p>Архитектура Data Fabric начала появляться около 2016 года. Фабрика данных можно рассматривать как эволюцию архитектуры современного хранилища данных, в которую добавлено больше технологий для работы с дополнительными источниками данных, обеспечения безопасности и упрощения доступа к данным. Также были улучшены процессы загрузки, трансформации, выполнения запросов, поиска и доступа к данным, как показано на Рисунке 2-4. С таким количеством дополнений система превращается в &#171;фабрику&#187; — большую инфраструктуру, способную обрабатывать любые виды данных. Более подробно эта тема раскрывается в Главе 11.</p>
<p><strong>Рисунок 2-4. Data fabric</strong></p>
<p><a href="https://datatalks.ru/wp-content/uploads/2024/12/2_4_data_fabric.png"><img loading="lazy" decoding="async" class="aligncenter size-full wp-image-608" src="https://datatalks.ru/wp-content/uploads/2024/12/2_4_data_fabric.png" alt="" width="1414" height="538" srcset="https://datatalks.ru/wp-content/uploads/2024/12/2_4_data_fabric.png 1414w, https://datatalks.ru/wp-content/uploads/2024/12/2_4_data_fabric-300x114.png 300w, https://datatalks.ru/wp-content/uploads/2024/12/2_4_data_fabric-1024x390.png 1024w, https://datatalks.ru/wp-content/uploads/2024/12/2_4_data_fabric-768x292.png 768w, https://datatalks.ru/wp-content/uploads/2024/12/2_4_data_fabric-450x171.png 450w, https://datatalks.ru/wp-content/uploads/2024/12/2_4_data_fabric-780x297.png 780w" sizes="(max-width: 1414px) 100vw, 1414px" /></a></p>
<h2>Озеро-хранилище данных (Data Lakehouse)</h2>
<p>Термин озеро-хранилище данных представляет собой смесь (портманто) понятий &#171;озеро данных&#187; и &#171;хранилище данных&#187;. Такие архитектуры начали набирать популярность около 2020 года, когда компания Databricks впервые ввела этот термин.</p>
<p>Идея гибридного озера-хранилища заключается в том, чтобы отказаться от реляционного хранилища данных и использовать в архитектуре только одно хранилище — озеро данных. Все типы данных — структурированные, полуструктурированные и неструктурированные — загружаются в озеро данных, и все запросы и отчёты выполняются на его основе.</p>
<p>Вы можете подумать: «Постойте. Ведь изначально озёра данных уже использовали этот подход, и он провалился! Что изменилось?» Ответ, как показано на Рисунке 2-5, заключается <strong>в добавлении транзакционного уровня хранения поверх существующего озера данных.</strong> Этот слой делает озеро данных более похожим на реляционную базу данных. Среди популярных решений с открытым исходным кодом для такого уровня — <strong>Delta Lake</strong>, <strong>Apache Iceberg</strong> и <strong>Apache Hudi</strong>.</p>
<p>Все эти технологии подробно рассматриваются в Главе 12.</p>
<p><strong>Рисунок 2-5. Data LakeHouse</strong></p>
<p><a href="https://datatalks.ru/wp-content/uploads/2024/12/2_5_data_lakehouse.png" target="_blank" rel="noopener"><img loading="lazy" decoding="async" class="aligncenter wp-image-613 size-full" src="https://datatalks.ru/wp-content/uploads/2024/12/2_5_data_lakehouse.png" alt="" width="1414" height="538" srcset="https://datatalks.ru/wp-content/uploads/2024/12/2_5_data_lakehouse.png 1414w, https://datatalks.ru/wp-content/uploads/2024/12/2_5_data_lakehouse-300x114.png 300w, https://datatalks.ru/wp-content/uploads/2024/12/2_5_data_lakehouse-1024x390.png 1024w, https://datatalks.ru/wp-content/uploads/2024/12/2_5_data_lakehouse-768x292.png 768w, https://datatalks.ru/wp-content/uploads/2024/12/2_5_data_lakehouse-450x171.png 450w, https://datatalks.ru/wp-content/uploads/2024/12/2_5_data_lakehouse-780x297.png 780w" sizes="(max-width: 1414px) 100vw, 1414px" /></a></p>
<h2>Архитектура &#171;Сетка данных&#187; (Data Mesh)</h2>
<p><strong>Термин архитектура &#171;Сетка данных&#187;</strong> был впервые представлен в блоге Заамак Дехгани (Zhamak Dehghani), основательницы и генерального директора Nextdata, в мае 2019 года. Позже, в декабре 2020 года, Дехгани уточнила концепцию и выделила четыре основные принципы архитектуры Сетки данных. С тех пор эта тема вызывает огромный интерес, обсуждаясь в блогах, на конференциях и в СМИ. Архитектура даже вошла в цикл Gartner Hype Cycle для управления данными. Несмотря на ажиотаж, подход подходит лишь для ограниченного числа сценариев.</p>
<p>Современное хранилище данных, фабрика данных и озеро-хранилище данных используют централизованный подход, предполагающий копирование операционных данных в центральное хранилище, контролируемое ИТ-отделом.</p>
<p><strong>Однако такая централизация вызывает три основные проблемы:</strong></p>
<ul>
<li>Владение данными. Кому принадлежат данные?</li>
<li>Качество данных. Кто отвечает за их чистоту?</li>
<li>Масштабируемость. Как масштабировать организацию и технологии?</li>
</ul>
<p>Цель <strong>Data Mesh</strong> — решить эти проблемы.</p>
<p>В <strong>Data Mesh</strong> остаются распределёнными по различным доменам внутри компании, таким как производство, продажи или поставки (правая часть Рисунка 2-6). Каждый домен имеет собственную мини-команду ИТ, которая отвечает за данные: их очистку, создание аналитических данных и обеспечение доступа. У каждого домена есть своя инфраструктура для вычислений и хранения. Это создаёт децентрализованную архитектуру, где данные, люди и инфраструктура масштабируются вместе с ростом числа доменов.</p>
<p><strong>Рисунок 2-6. Data mesh (архитектура &#171;Сетка данных&#187;)</strong></p>
<p><a href="https://datatalks.ru/wp-content/uploads/2024/12/2_6_data_mesh.png"><img loading="lazy" decoding="async" class="aligncenter size-full wp-image-609" src="https://datatalks.ru/wp-content/uploads/2024/12/2_6_data_mesh.png" alt="" width="1401" height="433" srcset="https://datatalks.ru/wp-content/uploads/2024/12/2_6_data_mesh.png 1401w, https://datatalks.ru/wp-content/uploads/2024/12/2_6_data_mesh-300x93.png 300w, https://datatalks.ru/wp-content/uploads/2024/12/2_6_data_mesh-1024x316.png 1024w, https://datatalks.ru/wp-content/uploads/2024/12/2_6_data_mesh-768x237.png 768w, https://datatalks.ru/wp-content/uploads/2024/12/2_6_data_mesh-450x139.png 450w, https://datatalks.ru/wp-content/uploads/2024/12/2_6_data_mesh-780x241.png 780w" sizes="(max-width: 1401px) 100vw, 1401px" /></a></p>
<p><strong>Важно понимать, что Data Mesh — это концепция, а не технология.</strong> Нельзя просто купить &#171;сетку данных в коробке&#187;. Её реализация требует значительных организационных и культурных изменений, к которым большинство компаний не готовы. Более того, она подходит только для крупных организаций.</p>
<p>Для её построения нужно определить, какие существующие технологии можно использовать, а какие придётся создавать с нуля. Каждый домен самостоятельно выбирает технологии для своей части сетки, включая такие варианты, как современное хранилище данных, фабрика данных или озеро-хранилище данных.</p>
<p>Все аспекты архитектуры <strong>Data Mesh</strong> рассматриваются в Главах 13 и 14.</p>
<h2>Резюме</h2>
<p>Теперь вы получили общее представление о типах архитектур данных. Следующая глава расскажет о том, как выбрать подходящую архитектуру для своих нужд: этот процесс называется сессией проектирования архитектуры.</p>
<p>Сообщение <a href="https://datatalks.ru/types-of-data-architectures/">Глава 2 &#171;Типы архитектур данных&#187;</a> появились сначала на <a href="https://datatalks.ru">DataTalks.RU. Data Engineering / DWH / Data Pipeline</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://datatalks.ru/types-of-data-architectures/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
