Открыто

Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik] [Алексей Малышкин]

Тема в разделе "Курсы по программированию", создана пользователем Топикстартер, 2 окт 2025.

Цена: 12990р.-92%
Взнос: 925р.

Основной список: 17 участников

  1. 2 окт 2025
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба

    Складчина: Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik] [Алексей Малышкин]

    2025-10-05_022240.png

    Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов.
    Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.

    Чему вы научитесь
    • Проектировать конвейер данных Kafka → Spark → Lakehouse под управлением Airflow.
    • Поднимать локальное окружение через Docker Compose и воспроизводимо деплоить пайплайны.
    • Делать batch и streaming в Spark, настраивать окна и watermark.
    • Читать/писать данные в Parquet и табличные форматы Delta/Iceberg, избегать «small files».
    • Настраивать DAG: расписания, retries, SLA, catchup, datasets.
    • Подключать источники/приёмники через Kafka Connect/Schema Registry, понимать EOS/idempotency.
    • Писать базовые тесты качества данных (freshness/completeness) и алерты по свежести.
    • Выполнять backfill и разруливать инциденты (сломалась схема, отставание потребителей).
    О курсе
    Этот курс — быстрый и практичный вход в инженерию данных. Вместо длинной теории вы сразу собираете рабочий конвейер: источники шлют события в Kafka, Spark их очищает и агрегирует (batch и streaming), результаты складываются в Parquet/Delta/Iceberg, а Airflow следит за расписанием, зависимостями и SLA.
    Мы разбираем, как выбирать ключи и партиции в Kafka, как настроить окна и watermark в стриминге, как не утонуть в shuffle и перекосе ключей в Spark, и как избежать «мелких файлов» в озере. В конце у вас будет шаблон проекта: Docker-компоуз, минимальный DAG, стрим из Kafka в таблицу, проверки свежести и сценарий backfill.

    Формат: короткая теория → пошаговая инструкция → мини-практика. Всё можно повторить локально: репозиторий с compose-файлами и кодом прилагается.

    Для кого этот курс
    • Специалисты, стремящиеся перейти в Data Engineering через практику: backend-разработчики, аналитики, DevOps, BI.
    • ML/DS-инженеры, которым важно надёжно поставлять и перерабатывать данные в проде.
    • Тимлиды и архитекторы, проектирующие пайплайны данных, стриминг и Lakehouse.
    • Мотивированные обучающиеся с опытом Python и интересом к построению дата-инфраструктуры.
    Программа курса
    Введение в Data Engineering
    1. Введение в курс
    2. Роль инженера данных
    3. Обзор инструментов: Kafka, Airflow, Spark
    4. Среда разработки и инструменты
    Apache Kafka — основы
    1. Архитектура и ключевые понятия Kafka
    2. Развёртывание и конфигурация Kafka
    3. Управление топиками и партициями
    4. Продюсеры и консюмеры
    Apache Kafka — продвинутые темы
    1. Модели доставки и группы консюмеров
    2. Streams API
    3. Connect API
    4. Тюнинг и масштабирование Kafka
    Apache Airflow — основы
    1. Концепция DAG и организация кодовой базы
    2. Операторы и сенсоры
    3. Планирование и параметры DAG
    4. Переменные, подключения и XCom
    Apache Airflow — продвинутые возможности
    1. Управление зависимостями и надёжность
    2. Пользовательские операторы, сенсоры и плагины в Airflow
    3. Интеграция Airflow с внешними сервисами
    4. Мониторинг, интерфейс Airflow и best practices
    Apache Spark — основы
    1. Архитектура Apache Spark и RDD
    2. Spark SQL, DataFrame и Dataset
    3. Join’ы и перекос данных: производительность без магии
    4. Lakehouse с Delta/Iceberg: upsert, compaction, time-travel
    Apache Spark — потоковая обработка и интеграция с Kafk
    1. Введение в Structured Streaming
    2. Чтение и запись данных из Kafka
    3. Оконные операции и управление временем
    4. Stateful-операции и stream-static join
    Проектный модуль: end‑to‑end пайплайн
    1. Итоговый проект: построение пайплайна
    Преподаватель: Алексей Малышкин
    Аналитик-разработчик с опытом работы в крупных компаниях. Победитель олимпиад по математике, программированию и анализу данных.

    Что вы получаете
    • Рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow, который разворачивается из Docker Compose
    • Репозиторий курса: docker-compose, примеры кода, готовые DAG, конфиги Kafka/Schema Registry/Kafka Connect
    • Мини-проект в портфолио: поток из Kafka в Delta/Iceberg + batch-пересчёт (backfill) + SLA/алерты
    • Чек-листы продакшена: ключи/партиции, окна и watermark, small files/компакции, мониторинг lag и задержек
    • Шаблоны: Airflow-DAG для ETL/ELT, Spark-jobs (batch/stream), базовые проверки качества данных (freshness/completeness)
    • Шпаргалки и схемы по Kafka, Airflow, Spark и табличным форматам (Delta/Iceberg)
    • Задачи и самопроверки двух уровней сложности (Starter/Pro)
    • Подготовительный мини-модуль для самоучек: краткий recap Python/SQL/Git/Bash/Docker (4–6 часов)
    • Пошаговые инструкции с разбором типичных ошибок и анти-паттернов
    • Оперативные ответы в комментариях к курсу
    • Сертификат по завершении
    Цена: 5990 руб.
    Скрытая ссылка
     
    Последнее редактирование модератором: 4 окт 2025
    1 человеку нравится это.
  2. Последние события

    1. Sandikp1303
      Sandikp1303 участвует.
      29 окт 2025
    2. and1m3n
      and1m3n не участвует.
      24 окт 2025
    3. skladchik.com
      Цена составляет 12990р.
      21 окт 2025
    4. di-spb
      di-spb участвует.
      20 окт 2025

    Последние важные события

    1. skladchik.com
      Цена составляет 12990р.
      21 окт 2025
    2. skladchik.com
      Назначен организатор.
      2 окт 2025