Data Engineer RoadMap — изучение тем по инженерии данных
На странице «Awesome Data Engineering Learning Sources» вы найдете отобранный список ресурсов для изучения Data Engineering.
Если Вы интересуетесь инженерией данных и хотите понять, какие знания необходимы и где их получить с минимальным бюджетом — Вы на правильной странице!
Также рекомендую подписываться на мой телеграм канал Data Engineering.
SQL
1. sql-ex.ru — один из лучших тренажеров по sql, который вы можете найти в рунете. Регистрируйтесь и занимайтесь абсолютно бесплатно. SQL — тот скилл, который нужно прокачать на 100%, чтобы работать с данными.
2. Оконные функции SQL (Stepik) — платно, но не запредельно. Пройдя этот курс вы на 99% закроете все вопросы с оконками (нужно очень постараться не понять этот великолепный метериал).
Базы данных
- SQL & Hibernate (лекции JavaRush) — Этот квест посвящен продвинутому изучению БД в разрезе задач разработчика.
- Введение в базы данных (Stepik, бесплатно) — хороший курс, чтобы погрузиться в проектирование и нормализацию БД, плюс бесплатно получить сертификат степика.
Database fundamentals
YouTube:
- Highload 6. Базы данных. Репликация. Шардинг
- PlayList «Базы данных» (Индексы, НФ, Внешние ключи, Транзакции и т.п.)
- PlayList Курс · Базы данных (весна 2017)
- Нормальные формы базы данных. Три нормальных формы, нормализация и денормализация БД
- База по Базам Данных — Storage (Индексы, Paging, LSM, B+-Tree, R-Tree) | Влад Тен Систем Дизайн — Очень рекомендую глянуть
Статьи:
- Нормализация
- ACID
- CAP теорема
- OLTP vs OLAP
- Вертикальное и горизонтальное масштабирование:
Подборка материалов по теме «Индексы в БД»
- Статья:
- YouTube:
- Что такое SQL ИНДЕКСЫ за 10 минут: Объяснение с примерами
- ИНДЕКСЫ В БАЗАХ ДАННЫХ. СОБЕС В OZON
- Как устроен B-TREE индекс в базах данных
- EXPLAIN в базах данных за 10 минут
- Андрей Сальников — Индексы в PostgreSQL. Как понять, что создавать
- Оптимизация запросов с помощью индексов
- Какие бывают индексы | ХЭШ-ИНДЕКС, SSTABLES, LSM-TREE, B-TREE
Data Engineering
- https://datalearn.ru/ — бесплатно, Дмитрий Аношин с коллегами проделали большую работу (подписывайтесь и занимайтесь)
- A Guide to Free Online Courses at DataTalks.Club
- Data Engineering Zoomcamp — на английском языке периодически проходят занятия бесплатно.
- Data Engineer с нуля до junior (Stepik) — платно, но очень бюджетно можно пройтись почти по всем нужным инструментам. Плюс электронный сертификат получите!
- Книга на русском языке: Основы инженерии данных (ссылка на озон, перевод o’reilly) — очень советую купить и читать постоянно (описаны базовые вещи по всему, что касается работы DE, без привязки к инструментам).
- Data Engineering Wiki
- Data Engineering Handbook for beginners and everyone (источник github)
- YouTube:
- Data Engineering Handbook
Skills: Навыки дата инженера. Матрица компетенций
В этом пункте описаны компетенции, которыми должен обладать дата инженер в зависимости от грейда.
- Профили инженеров Авито Playbook (здесь не про data engineer, но будет полезно тоже)
- Habr:
- YouTube:
- Другое:
- Become a Data Engineer in 2025 (Based on 100 jobs data!) — список скиллов на основе зарубежных вакансий (Eng)
Python
Для старта 2 варианта:
1. Программирование на Python (этот вариант быстрее) — бесплатно
или
1. «Поколение Python»: курс для начинающих (сильно дольше) — бесплатно
После начала точно стоит пройти курс:
2. «Поколение Python»: курс для продвинутых — бесплатно, очень советую этот курс.
Для тех, кто хочет дальше развиваться в Python:
3. Поколение Python Курс для профессионалов и ООП. Купить можно на степике, или же на самом сайте со скидкой в разделе акции https://pygen.ru/sale#promo (сам купил оба со скидкой, не реклама).
Алгоритмы и структуры данных
- https://coderun.yandex.ru/catalog — Каталог задачек от Яндекса — альтернатива LeetCode
- https://ru.algorithmica.org/ — Алгоритмика
- GitHub: All algorithms implemented in Python — for education
- https://leetcode.com — основной ресурс, где разработчики качают навыки решения алгоритмических задач
Разработка:
- Чеклист для разработчиков по подготовке к техническому собеседованию — не про data engineering, но будет полезно
Книги:
- Грокаем алгоритмы. 2-е изд. | Бхаргава Адитья — погуглите, чтоб найти книжку
YouTube:
- PlayList Курс · Алгоритмы и структуры данных
Stepik:
- Алгоритмы: теория и практика. Структуры данных (бесплатно + сертификат Stepik)
- Алгоритмы: теория и практика. Методы (бесплатно + сертификат Stepik)
- Алгоритмы и структуры данных: ознакомительный курс (бесплатно + сертификат Stepik)
- Алгоритмы и структуры данных (курс без сертификата)
- Алгоритмы: теория и практика. Структуры данных. МНМЦ СПбГУ (курс без сертификата)
Airflow
- Apache Airflow для аналитика — платно (пока курс не доступен, цена временно высокая)
- Habr:
- Sber: Руководство по использованию AirFlow (оркестратор для задач ETL)
- YouTube: ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG’а / НАСТРОЙКА DAG’а В AIRFLOW
- Книга «Apache Airflow и конвейеры обработки данных» (платно купить)
- YouTube Eng:
- YouTube Ru:
- Еще есть такой вот бесплатный курс Apache Airflow 2.2: практический курс
dbt
- dbt Fundamentals — бесплатный курс от вендора на английском языке
- YouTube 5 video на русском (плейлист):
- Статьи Хабр:
- YouTube 2 видео «Курс по dbt с нуля»:
- DataLearn
- Статья: Обучение dbt. dbt-clickhouse Tutorial. Описание run model data
- DBT Tutorial 12 videos YouTube Playlist — видео на английском
- YouTube Video Введение в dbt: основы моделирования данных — на русском языке
- YouTube Марк Порошин — Data Vault на Greenplum c помощью DBT
- Перевод главы «Введение в dbt» из книги Unlocking dbt
- YouTube — Курс по dbt для инженеров данных — большой подробный курс на русском языке
GitLab
- YouTube:
Docker
- YouTube:
- Статья Docker и Docker-Compose Tutorial
Spark
- PySpark:
- https://www.sparkplayground.com/tutorials — здесь можно изучить работу со спарком (на английском)
- https://www.sparkplayground.com/playground — здесь можно потренироваться онлайн
- YouTube:
- Apache Spark для Джуна | Что такое Spark и как он работает?
- МИТАП «Apache Spark за 2 часа — для нетерпеливых»_20 апреля 2022г
- МИТАП: «Установка Apache Spark — это просто»_11 мая 2022г
- МИТАП: «Spark или pandas? Spark и pandas!»
- МИТАП: «Работа с источниками данных в Apache Spark»_ 14 июня 2022 года
- МИТАП: «Использование SQL для работы с данными в Apache Spark»_29 июня 2022г
- Анализируем данные с помощью фреймворка Spark
- YouTube DataLearn:
- PlayList — DE-101 | Модуль 7 — APACHE SPARK
- Отдельный вебинар — ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ
- Stepik:
ClickHouse
- Оптимизация SQL запросов на примере ClickHouse (Stepik) — бесплатный курс
- ClickHouse для аналитика (курс будет доступен с 1 Января, цена снизится — пока курс на доработке)
- Статья: Заметки про ClickHouse. Tutorial 101 — Большая подборка информации
- Статья: Как данные физически хранятся в таблице MergeTree() в ClickHouse?
- YouTube:
- Курсы от Яндекса (бесплатные):
- Managed Service for ClickHouse — можно получить сертификат, бесплатно
- ClickHouse для инженеров и аналитиков (Stepik, без сертификата)
Kafka
- YouTube:
- Про Kafka (основы)
- Лучший Гайд по Kafka для Начинающих За 1 Час
- Андрей Серебрянский — Грузим в Kafka из базы: с CDC и без
- Kafka vs. RabbitMQ vs. Messaging Middleware vs. Pulsar
- Unlock the Power of Event-Driven Architecture: How Netflix & Uber Handle Billions of Events
- Основы Kafka для тестировщиков. Apache Kafka for QA
DuckDB
- YouTube RU: Разработка data приложений на DuckDB
- YouTube Eng:
Apache Iceberg
- Книги:
- Подборка материалов на английском про айсберг — Apache Iceberg 101 – Your Guide to Learning Apache Iceberg Concepts and Practices на сайте dremio.com
- На канале YouTube Dremio тоже много плейлистов по Apache Iceberg
- YouTube Eng:
- YouTube Ru:
- Статья по Apache Iceberg: Введение в Apache Iceberg. Основы, архитектура, как работает?
Trino
- Статьи:
- smartdataconf:
- YouTube:
Проектирование хранилищ данных + методологии построения DWH
Общая статья:
Статьи по Data Vault:
- Перевод 1 Главы — Введение в хранилища данных
- Перевод 2 Главы — Масштабируемая архитектура хранилища данных
- Перевод 3 Главы — Методология Data Vault 2.0
- Перевод 4 Главы — Моделирование Data Vault 2.0 — Что такое Hub / Link / Satellite?
- Перевод 5 Главы – Intermediate Моделирование Data Vault
- Перевод 6 Главы — Продвинутое моделирование Data Vault 2.0 — Advanced Data Vault Modeling
- Перевод 7 Главы — Dimensional Modeling (Data Vault 2.0)
Системный дизайн
YouTube:
- PlayList System Design (Interview Pen) — English
- Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
- System Design — теория шардирования | Как масштабировать базы данных
- Как кэшировать данные | Теория кэширования — System Design
- Проектирование баз данных за 40 минут. Практика
- PlayList Системный дизайн (Eugene Suleimanov)
- PlayList System Design Fundamentals (ByteByteGo)
- PlayList System Design. Kleppman (Владимир Невзоров) — Разбор глав книги «Высоконагруженные приложения»
- Как подготовиться и пройти System Design Interview. Александр Поломодов
- Владимир Маслов — System Design. Как построить распределенную систему и пройти собеседование
Другое:
- 01. SAGA pattern. Хореография и Оркестрация — микросервисы
- ЭТОТ Паттерн Спрашивают на 99% Собесов
- Филипп Вагнер «Распределенные транзакции в условиях микросервисной архитектуры»
Форматы хранения данных
Apache Parquet
Apache Arrow
Linux & DevOps
- YouTube:
- PlayList «Linux by REBRAIN» — Онлайн-практикумы Linux для специалистов в IT (40 видео) — системных администраторов, сетевых инженеров, разработчиков, Devops-инженеров, технических / релизных менеджеров.
- PlayList «Обучение DevOps» — 7 базовых видео
Тестирование
Сборники информации по Awesome Data Engineering
- https://github.com/igorbarinov/awesome-data-engineering — A curated list of awesome things related to Data Engineering.
- https://github.com/halltape/HalltapeRoadmapDE — Roadmap для Data Engineer. Цель роадмапа – устроиться тебе на работу!
- https://github.com/data-burst/data-engineering-roadmap — Data Engineering Roadmap
- https://github.com/sonhmai/data-systems-design — System Design, Solution Architecture, Data Systems Practice
- https://github.com/DataExpert-io/data-engineer-handbook — The Data Engineering Handbook
- https://github.com/DataTalksClub/data-engineering-zoomcamp — Data Engineering Zoomcamp: A Free 9-Week Course on Data Engineering Fundamentals
- https://github.com/Data-Learn/data-engineering — Getting Started with Data Enngineering — datalearn.ru
- https://maelfabien.github.io/bgd/# — A series of articles dedicated to Big Data analytics and Data Engineering.
Подборка каналов на YouTube про DWH/DataLake/Data Engineering на русском языке
- Avito DWH Плейлист
- Т-Банк (T-Meetup) — DWH, GreenPlum
- SmartData все плейлисты
- Data Platform Yandex
- DataOffice Ростелеком PlayList YouTube
- Лекции в МГТУ им. Баумана: Deep dive into SQL and DWH. Пишем эффективные аналитические запросы
- Отдельно хочется выделить канал HighLoadChannel, на котором много ИТ докладов не только по Data
- OTUS IT Онлайн — образование — здесь можно посмотреть какие-то вводные вебинары по инструментам, а дальше по документации продолжить изучение
- YouTube PlayList: Создание хранилища данных — Владимир Амелин






Leave a Reply