Источник статьи: Data teams should become context teams Data-команды должны стать командами контекста Context engineering = управление данными + инженерия данных + наука о данных. Помните, как ваша компания подключила BI-инструмент напрямую к продакшен-базе данных? Цифры постоянно были неверными. Никто ...
Одним из основных hard skill дата инженера является знание Python, так как это достаточно удобный язык для реализации различного функционала. В этой статье будет подборка материалов для подготовки к интервью по Python. YouTube Ну НАСТОЯЩИЙ Senior! 10 лет опыта и ...
Основные термины и понятия Pytest Test / Test Case (тест / тест-кейс) — Одиночная проверка поведения кода: функция, имя которой начинается с test_. Pytest автоматически обнаруживает и запускает такие тесты. Assertion (ассерция / утверждение) — Проверка, выраженная через стандартный Python-оператор assert. Pytest ...
Перевод документации Apache Airflow 3 — Best Practices Лучшие практики по работе с Apache Airflow 3 Создание нового Dag — это процесс из трёх шагов: написание Python-кода для создания объекта Dag, проверка того, что код соответствует вашим ожиданиям, настройка зависимостей ...
Подборка материалов для освоения темы многозадачности в Python YouTube ролики Как работает GIL в Python. Многопоточность. Многопроцессность. IO/CPU-Bound Yandex for Developers — 01. Устройство CPython – Егор Овчаренко [ZProger] Многопоточность и Многопроцессорность Python. Threading & Multiprocessing Python Асинхронность, многопоточность, многопроцессность ...
Basic PySpark Interview Questions Каковы основные преимущества использования PySpark по сравнению с традиционным Python для обработки больших данных? PySpark, Python API для Apache Spark, предлагает несколько преимуществ по сравнению с традиционным Python для обработки больших данных. К ним относятся масштабируемость ...
Полезные материалы GitHub: The System Design Primer (329k stars) — Learn how to design large-scale systems. Prep for the system design interview. Includes Anki flashcards ByteByteGoHq: System Design 101 (79.5k stars) — Explain complex systems using visuals and simple terms. ...
Введение в Apache Kafka Что такое Apache Kafka? Apache Kafka — это распределённая платформа для обработки потоков данных в реальном времени, которая позволяет приложениям публиковать, хранить и обрабатывать данные в режиме потоков событий. Она обеспечивает высокую пропускную способность, масштабируемость и ...
Ниже — перевод статьи “Building a Medallion architecture for Bluesky JSON data with ClickHouse” с сайта ClickHouse. Построение архитектуры Medallion для данных Bluesky в формате JSON с помощью ClickHouse Мы так же взволнованы, как и вся остальная дата-сообщество, из-за недавнего ...
Перевод из книги «Designing Data-Intensive Applications, 2nd Edition» подготовлен автором сайта Глава 5. Кодирование и эволюция Всё изменяется и ничто не стоит на месте. Гераклит Эфесский, цитата у Платона в «Кратиле» (360 г. до н. э.) Приложения неизбежно со временем ...













