Awesome Data Engineering Learning Sources. Data Engineer RoadMap

Data Engineer RoadMap — изучение тем по инженерии данных

На странице «Awesome Data Engineering Learning Sources» вы найдете отобранный список ресурсов для изучения Data Engineering.

Если Вы интересуетесь инженерией данных и хотите понять, какие знания необходимы и где их получить с минимальным бюджетом — Вы на правильной странице!

Также рекомендую подписываться на мой телеграм канал Data Engineering.

SQL

1. sql-ex.ru — один из лучших тренажеров по sql, который вы можете найти в рунете. Регистрируйтесь и занимайтесь абсолютно бесплатно. SQL — тот скилл, который нужно прокачать на 100%, чтобы работать с данными.
2. Оконные функции SQL (Stepik) — платно, но не запредельно. Пройдя этот курс вы на 99% закроете все вопросы с оконками (нужно очень постараться не понять этот великолепный метериал).

Базы данных

Database fundamentals

YouTube:

Статьи:

Подборка материалов по теме «Индексы в БД»

Data Engineering

  1. https://datalearn.ru/ — бесплатно, Дмитрий Аношин с коллегами проделали большую работу (подписывайтесь и занимайтесь)
  2. A Guide to Free Online Courses at DataTalks.Club
    • Data Engineering Zoomcamp — на английском языке периодически проходят занятия бесплатно.
  3. Data Engineer с нуля до junior (Stepik) — платно, но очень бюджетно можно пройтись почти по всем нужным инструментам. Плюс электронный сертификат получите!
  4. Книга на русском языке: Основы инженерии данных (ссылка на озон, перевод o’reilly) — очень советую купить и читать постоянно (описаны базовые вещи по всему, что касается работы DE, без привязки к инструментам).
  5. Data Engineering Wiki
  6. Data Engineering Handbook for beginners and everyone (источник github)
  7. YouTube:
  8. Data Engineering Handbook

Skills: Навыки дата инженера. Матрица компетенций

В этом пункте описаны компетенции, которыми должен обладать дата инженер в зависимости от грейда.

Python

Для старта 2 варианта:
1. Программирование на Python (этот вариант быстрее) — бесплатно
или
1. «Поколение Python»: курс для начинающих (сильно дольше) — бесплатно

После начала точно стоит пройти курс:
2. «Поколение Python»: курс для продвинутых — бесплатно, очень советую этот курс.

Для тех, кто хочет дальше развиваться в Python:

3. Поколение Python Курс для профессионалов и ООП. Купить можно на степике, или же на самом сайте со скидкой в разделе акции https://pygen.ru/sale#promo (сам купил оба со скидкой, не реклама).

Алгоритмы

  1. https://coderun.yandex.ru/catalog — Каталог задачек от Яндекса
  2. https://ru.algorithmica.org/ — Алгоритмика
  3. GitHub: All algorithms implemented in Python — for education

Разработка:

Книги:

  • Грокаем алгоритмы. 2-е изд. | Бхаргава Адитья — погуглите, чтоб найти книжку

YouTube:

Airflow

  1. Apache Airflow для аналитика — платно (пока курс не доступен, цена временно высокая)
  2. Habr:
  3. Sber: Руководство по использованию AirFlow (оркестратор для задач ETL)
  4. YouTube: ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG’а / НАСТРОЙКА DAG’а В AIRFLOW
  5. Книга «Apache Airflow и конвейеры обработки данных» (платно купить)
  6. YouTube Eng:
  7. YouTube Ru:
  8. Еще есть такой вот бесплатный курс Apache Airflow 2.2: практический курс

dbt

  1. dbt Fundamentals — бесплатный курс от вендора на английском языке
  2. YouTube 5 video на русском (плейлист):
  3. Статьи Хабр:
  4. YouTube 2 видео «Курс по dbt с нуля»:
  5. DataLearn
    1. YouTube ВВЕДЕНИ В DBT / СОЗДАНИЕ МОДЕЛЕЙ ПРИ ПОМОЩИ DBT / УПРАВЛЕНИЕ ТРАНСФОРМАЦИЕЙ ДАННЫХ / РИШАТ МИНГАЗОВ
    2. Telegram Запись трансляции 🧠 dbt: С ЧЕГО НАЧАТЬ? | Вебинар с Дмитрием Аношиным
    3. Telegram Начало работы с DBT | Часть 2
  6. Статья: Обучение dbt. dbt-clickhouse Tutorial. Описание run model data
  7. DBT Tutorial 12 videos YouTube Playlist — видео на английском
  8. YouTube Video Введение в dbt: основы моделирования данных — на русском языке
  9. YouTube Марк Порошин — Data Vault на Greenplum c помощью DBT
  10. Перевод главы «Введение в dbt» из книги Unlocking dbt
  11. YouTube — Курс по dbt для инженеров данных — большой подробный курс на русском языке

GitLab

  1. YouTube:

Docker

  1. YouTube:
  2. Статья Docker и Docker-Compose Tutorial

Spark

  1. PySpark:
  2. YouTube:
  3. YouTube DataLearn:
  4. Stepik:

ClickHouse

  1. Оптимизация SQL запросов на примере ClickHouse (Stepik) — бесплатный курс
  2. ClickHouse для аналитика (курс будет доступен с 1 Января, цена снизится — пока курс на доработке)
  3. Статья: Заметки про ClickHouse. Tutorial 101 — Большая подборка информации
  4. Статья: Как данные физически хранятся в таблице MergeTree() в ClickHouse?
  5. YouTube:

Kafka

  1.  YouTube:

DuckDB

  1. YouTube RU: Разработка data приложений на DuckDB
  2. YouTube Eng:

Apache Iceberg

  1. Книги:
  2. Подборка материалов на английском про айсберг — Apache Iceberg 101 – Your Guide to Learning Apache Iceberg Concepts and Practices на сайте dremio.com
  3. На канале YouTube Dremio тоже много плейлистов по Apache Iceberg
  4. YouTube Eng:
  5. YouTube Ru:

Trino

  1. Статьи:
  2. smartdataconf:
  3. YouTube:

Системный дизайн

YouTube:

Форматы хранения данных

Apache Parquet

  1. YouTube Eng:

Apache Arrow

Linux & DevOps

Тестирование

Сборники информации по Awesome Data Engineering

Подборка каналов на YouTube про DWH/DataLake/Data Engineering на русском языке

  1. Avito DWH Плейлист
  2. Т-Банк (T-Meetup) — DWH, GreenPlum
  3. SmartData все плейлисты
  4. Data Platform Yandex
  5. DataOffice Ростелеком PlayList YouTube
  6. Лекции в МГТУ им. Баумана: Deep dive into SQL and DWH. Пишем эффективные аналитические запросы
  7. Отдельно хочется выделить канал HighLoadChannel, на котором много ИТ докладов не только по Data
  8. OTUS IT Онлайн — образование — здесь можно посмотреть какие-то вводные вебинары по инструментам, а дальше по документации продолжить изучение
  9. YouTube PlayList: Создание хранилища данных — Владимир Амелин
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x