Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik] [Алексей Малышкин]

Топикстартер · 2 окт 2025

Складчина: Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik] [Алексей Малышкин]

Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов.
Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.

Чему вы научитесь

Проектировать конвейер данных Kafka → Spark → Lakehouse под управлением Airflow.

Поднимать локальное окружение через Docker Compose и воспроизводимо деплоить пайплайны.

Делать batch и streaming в Spark, настраивать окна и watermark.

Читать/писать данные в Parquet и табличные форматы Delta/Iceberg, избегать «small files».

Настраивать DAG: расписания, retries, SLA, catchup, datasets.

Подключать источники/приёмники через Kafka Connect/Schema Registry, понимать EOS/idempotency.

Писать базовые тесты качества данных (freshness/completeness) и алерты по свежести.

Выполнять backfill и разруливать инциденты (сломалась схема, отставание потребителей).

О курсе
Этот курс — быстрый и практичный вход в инженерию данных. Вместо длинной теории вы сразу собираете рабочий конвейер: источники шлют события в Kafka, Spark их очищает и агрегирует (batch и streaming), результаты складываются в Parquet/Delta/Iceberg, а Airflow следит за расписанием, зависимостями и SLA.
Мы разбираем, как выбирать ключи и партиции в Kafka, как настроить окна и watermark в стриминге, как не утонуть в shuffle и перекосе ключей в Spark, и как избежать «мелких файлов» в озере. В конце у вас будет шаблон проекта: Docker-компоуз, минимальный DAG, стрим из Kafka в таблицу, проверки свежести и сценарий backfill.

Формат: короткая теория → пошаговая инструкция → мини-практика. Всё можно повторить локально: репозиторий с compose-файлами и кодом прилагается.

Для кого этот курс

Специалисты, стремящиеся перейти в Data Engineering через практику: backend-разработчики, аналитики, DevOps, BI.

ML/DS-инженеры, которым важно надёжно поставлять и перерабатывать данные в проде.

Тимлиды и архитекторы, проектирующие пайплайны данных, стриминг и Lakehouse.

Мотивированные обучающиеся с опытом Python и интересом к построению дата-инфраструктуры.

Программа курса
Введение в Data Engineering

Введение в курс

Роль инженера данных

Обзор инструментов: Kafka, Airflow, Spark

Среда разработки и инструменты

Apache Kafka — основы

Архитектура и ключевые понятия Kafka

Развёртывание и конфигурация Kafka

Управление топиками и партициями

Продюсеры и консюмеры

Apache Kafka — продвинутые темы

Модели доставки и группы консюмеров

Streams API

Connect API

Тюнинг и масштабирование Kafka

Apache Airflow — основы

Концепция DAG и организация кодовой базы

Операторы и сенсоры

Планирование и параметры DAG

Переменные, подключения и XCom

Apache Airflow — продвинутые возможности

Управление зависимостями и надёжность

Пользовательские операторы, сенсоры и плагины в Airflow

Интеграция Airflow с внешними сервисами

Мониторинг, интерфейс Airflow и best practices

Apache Spark — основы

Архитектура Apache Spark и RDD

Spark SQL, DataFrame и Dataset

Join’ы и перекос данных: производительность без магии

Lakehouse с Delta/Iceberg: upsert, compaction, time-travel

Apache Spark — потоковая обработка и интеграция с Kafk

Введение в Structured Streaming

Чтение и запись данных из Kafka

Оконные операции и управление временем

Stateful-операции и stream-static join

Проектный модуль: end‑to‑end пайплайн

Итоговый проект: построение пайплайна

Преподаватель: Алексей Малышкин
Аналитик-разработчик с опытом работы в крупных компаниях. Победитель олимпиад по математике, программированию и анализу данных.

Что вы получаете

Рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow, который разворачивается из Docker Compose

Репозиторий курса: docker-compose, примеры кода, готовые DAG, конфиги Kafka/Schema Registry/Kafka Connect

Мини-проект в портфолио: поток из Kafka в Delta/Iceberg + batch-пересчёт (backfill) + SLA/алерты

Чек-листы продакшена: ключи/партиции, окна и watermark, small files/компакции, мониторинг lag и задержек

Шаблоны: Airflow-DAG для ETL/ELT, Spark-jobs (batch/stream), базовые проверки качества данных (freshness/completeness)

Шпаргалки и схемы по Kafka, Airflow, Spark и табличным форматам (Delta/Iceberg)

Задачи и самопроверки двух уровней сложности (Starter/Pro)

Подготовительный мини-модуль для самоучек: краткий recap Python/SQL/Git/Bash/Docker (4–6 часов)

Пошаговые инструкции с разбором типичных ошибок и анти-паттернов

Оперативные ответы в комментариях к курсу

Сертификат по завершении

Цена: 5990 руб.
Скрытая ссылка