Data Engineer RoadMap — изучение тем по инженерии данных
На странице «Awesome Data Engineering Learning Sources» вы найдете отобранный список ресурсов для изучения Data Engineering.
Если Вы интересуетесь инженерией данных и хотите понять, какие знания необходимы и где их получить с минимальным бюджетом — Вы на правильной странице!
Также рекомендую подписываться на мой телеграм канал Data Engineering.
SQL
1. sql-ex.ru — один из лучших тренажеров по sql, который вы можете найти в рунете. Регистрируйтесь и занимайтесь абсолютно бесплатно. SQL — тот скилл, который нужно прокачать на 100%, чтобы работать с данными.
2. Оконные функции SQL (Stepik) — платно, но не запредельно. Пройдя этот курс вы на 99% закроете все вопросы с оконками (нужно очень постараться не понять этот великолепный метериал).
Базы данных
- SQL & Hibernate (лекции JavaRush) — Этот квест посвящен продвинутому изучению БД в разрезе задач разработчика.
- Введение в базы данных (Stepik, бесплатно) — хороший курс, чтобы погрузиться в проектирование и нормализацию БД, плюс бесплатно получить сертификат степика.
Database fundamentals
YouTube:
- Highload 6. Базы данных. Репликация. Шардинг
- PlayList «Базы данных» (Индексы, НФ, Внешние ключи, Транзакции и т.п.)
- PlayList Курс · Базы данных (весна 2017)
- Нормальные формы базы данных. Три нормальных формы, нормализация и денормализация БД
Статьи:
- Нормализация
- ACID
- CAP теорема
- OLTP vs OLAP
- Вертикальное и горизонтальное масштабирование:
Подборка материалов по теме «Индексы в БД»
- Статья:
- YouTube:
- Что такое SQL ИНДЕКСЫ за 10 минут: Объяснение с примерами
- ИНДЕКСЫ В БАЗАХ ДАННЫХ. СОБЕС В OZON
- Как устроен B-TREE индекс в базах данных
- EXPLAIN в базах данных за 10 минут
- Андрей Сальников — Индексы в PostgreSQL. Как понять, что создавать
- Оптимизация запросов с помощью индексов
- Какие бывают индексы | ХЭШ-ИНДЕКС, SSTABLES, LSM-TREE, B-TREE
Data Engineering
- https://datalearn.ru/ — бесплатно, Дмитрий Аношин с коллегами проделали большую работу (подписывайтесь и занимайтесь)
- A Guide to Free Online Courses at DataTalks.Club
- Data Engineering Zoomcamp — на английском языке периодически проходят занятия бесплатно.
- Data Engineer с нуля до junior (Stepik) — платно, но очень бюджетно можно пройтись почти по всем нужным инструментам. Плюс электронный сертификат получите!
- Книга на русском языке: Основы инженерии данных (ссылка на озон, перевод o’reilly) — очень советую купить и читать постоянно (описаны базовые вещи по всему, что касается работы DE, без привязки к инструментам).
- Data Engineering Wiki
- Data Engineering Handbook for beginners and everyone (источник github)
- YouTube:
- Data Engineering Handbook
Skills: Навыки дата инженера. Матрица компетенций
В этом пункте описаны компетенции, которыми должен обладать дата инженер в зависимости от грейда.
- Профили инженеров Авито Playbook (здесь не про data engineer, но будет полезно тоже)
- Habr:
- YouTube:
- Другое:
- Become a Data Engineer in 2025 (Based on 100 jobs data!) — список скиллов на основе зарубежных вакансий (Eng)
Python
Для старта 2 варианта:
1. Программирование на Python (этот вариант быстрее) — бесплатно
или
1. «Поколение Python»: курс для начинающих (сильно дольше) — бесплатно
После начала точно стоит пройти курс:
2. «Поколение Python»: курс для продвинутых — бесплатно, очень советую этот курс.
Для тех, кто хочет дальше развиваться в Python:
3. Поколение Python Курс для профессионалов и ООП. Купить можно на степике, или же на самом сайте со скидкой в разделе акции https://pygen.ru/sale#promo (сам купил оба со скидкой, не реклама).
Алгоритмы
- https://coderun.yandex.ru/catalog — Каталог задачек от Яндекса
- https://ru.algorithmica.org/ — Алгоритмика
- GitHub: All algorithms implemented in Python — for education
Разработка:
- Чеклист для разработчиков по подготовке к техническому собеседованию — не про data engineering, но будет полезно
Книги:
- Грокаем алгоритмы. 2-е изд. | Бхаргава Адитья — погуглите, чтоб найти книжку
YouTube:
- PlayList Курс · Алгоритмы и структуры данных
Airflow
- Apache Airflow для аналитика — платно (пока курс не доступен, цена временно высокая)
- Habr:
- Sber: Руководство по использованию AirFlow (оркестратор для задач ETL)
- YouTube: ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG’а / НАСТРОЙКА DAG’а В AIRFLOW
- Книга «Apache Airflow и конвейеры обработки данных» (платно купить)
- YouTube Eng:
- YouTube Ru:
- Еще есть такой вот бесплатный курс Apache Airflow 2.2: практический курс
dbt
- dbt Fundamentals — бесплатный курс от вендора на английском языке
- YouTube 5 video на русском (плейлист):
- Статьи Хабр:
- YouTube 2 видео «Курс по dbt с нуля»:
- DataLearn
- Статья: Обучение dbt. dbt-clickhouse Tutorial. Описание run model data
- DBT Tutorial 12 videos YouTube Playlist — видео на английском
- YouTube Video Введение в dbt: основы моделирования данных — на русском языке
- YouTube Марк Порошин — Data Vault на Greenplum c помощью DBT
- Перевод главы «Введение в dbt» из книги Unlocking dbt
- YouTube — Курс по dbt для инженеров данных — большой подробный курс на русском языке
GitLab
- YouTube:
Docker
- YouTube:
- Статья Docker и Docker-Compose Tutorial
Spark
- PySpark:
- https://www.sparkplayground.com/tutorials — здесь можно изучить работу со спарком (на английском)
- https://www.sparkplayground.com/playground — здесь можно потренироваться онлайн
- YouTube:
- Apache Spark для Джуна | Что такое Spark и как он работает?
- МИТАП «Apache Spark за 2 часа — для нетерпеливых»_20 апреля 2022г
- МИТАП: «Установка Apache Spark — это просто»_11 мая 2022г
- МИТАП: «Spark или pandas? Spark и pandas!»
- МИТАП: «Работа с источниками данных в Apache Spark»_ 14 июня 2022 года
- МИТАП: «Использование SQL для работы с данными в Apache Spark»_29 июня 2022г
- Анализируем данные с помощью фреймворка Spark
- YouTube DataLearn:
- PlayList — DE-101 | Модуль 7 — APACHE SPARK
- Отдельный вебинар — ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ
- Stepik:
ClickHouse
- Оптимизация SQL запросов на примере ClickHouse (Stepik) — бесплатный курс
- ClickHouse для аналитика (курс будет доступен с 1 Января, цена снизится — пока курс на доработке)
- Статья: Заметки про ClickHouse. Tutorial 101 — Большая подборка информации
- Статья: Как данные физически хранятся в таблице MergeTree() в ClickHouse?
- YouTube:
Kafka
- YouTube:
- Про Kafka (основы)
- Лучший Гайд по Kafka для Начинающих За 1 Час
- Андрей Серебрянский — Грузим в Kafka из базы: с CDC и без
- Kafka vs. RabbitMQ vs. Messaging Middleware vs. Pulsar
- Unlock the Power of Event-Driven Architecture: How Netflix & Uber Handle Billions of Events
- Основы Kafka для тестировщиков. Apache Kafka for QA
DuckDB
- YouTube RU: Разработка data приложений на DuckDB
- YouTube Eng:
Apache Iceberg
- Книги:
- Подборка материалов на английском про айсберг — Apache Iceberg 101 – Your Guide to Learning Apache Iceberg Concepts and Practices на сайте dremio.com
- На канале YouTube Dremio тоже много плейлистов по Apache Iceberg
- YouTube Eng:
- YouTube Ru:
Trino
- Статьи:
- smartdataconf:
- YouTube:
Системный дизайн
YouTube:
- PlayList System Design (Interview Pen) — English
- Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
- System Design — теория шардирования | Как масштабировать базы данных
- Как кэшировать данные | Теория кэширования — System Design
- Проектирование баз данных за 40 минут. Практика
- PlayList Системный дизайн (Eugene Suleimanov)
- PlayList System Design Fundamentals (ByteByteGo)
- Как подготовиться и пройти System Design Interview. Александр Поломодов
- Владимир Маслов — System Design. Как построить распределенную систему и пройти собеседование
Форматы хранения данных
Apache Parquet
Apache Arrow
Linux & DevOps
- YouTube:
- PlayList «Linux by REBRAIN» — Онлайн-практикумы Linux для специалистов в IT (40 видео) — системных администраторов, сетевых инженеров, разработчиков, Devops-инженеров, технических / релизных менеджеров.
- PlayList «Обучение DevOps» — 7 базовых видео
Тестирование
Сборники информации по Awesome Data Engineering
- https://github.com/igorbarinov/awesome-data-engineering — A curated list of awesome things related to Data Engineering.
- https://github.com/halltape/HalltapeRoadmapDE — Roadmap для Data Engineer. Цель роадмапа – устроиться тебе на работу!
- https://github.com/data-burst/data-engineering-roadmap — Data Engineering Roadmap
- https://github.com/sonhmai/data-systems-design — System Design, Solution Architecture, Data Systems Practice
Подборка каналов на YouTube про DWH/DataLake/Data Engineering на русском языке
- Avito DWH Плейлист
- Т-Банк (T-Meetup) — DWH, GreenPlum
- SmartData все плейлисты
- Data Platform Yandex
- DataOffice Ростелеком PlayList YouTube
- Лекции в МГТУ им. Баумана: Deep dive into SQL and DWH. Пишем эффективные аналитические запросы
- Отдельно хочется выделить канал HighLoadChannel, на котором много ИТ докладов не только по Data
- OTUS IT Онлайн — образование — здесь можно посмотреть какие-то вводные вебинары по инструментам, а дальше по документации продолжить изучение
- YouTube PlayList: Создание хранилища данных — Владимир Амелин
Leave a Reply