Открыто

Курс CV Rocket [DeepSchool] [Андрей Шадриков, Дмитрий Раков, Дмитрий Чудаков]

Тема в разделе "Курсы по программированию", создана пользователем Топикстартер, 27 ноя 2025.

Основной список: 14 участников

  1. 27 ноя 2025
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба

    Складчина: Курс CV Rocket [DeepSchool] [Андрей Шадриков, Дмитрий Раков, Дмитрий Чудаков]

    2025-11-27_064818.png

    Погрузитесь в продвинутый Computer Vision: от сложностей и корнер-кейсов в «обычных» задачах до мультимодальных моделей и дизайна CV-систем

    Курс подойдёт CV-инженерам всех грейдов
    • Junior - узнаете теорию и закрепите на практике
    • Middle - систематизируете знания и закроете пробелы
    • Senior - подсмотрите на практики других команд
    Программа
    Лекция каждую неделю. После каждой темы — домашнее задание с фидбеком от лектора. Раз в 4−5 недель — Q&A-сессия для разбора вопросов и перерыв на каникулы.

    01. Подготовка данных
    Разберём основные источники открытых данных: научимся находить и курировать датасеты. Обсудим инструменты для inhouse-разметки и формирование ТЗ, а также внедрение авторазметки
    Основные темы:
    Data-Centric AI — новый фокус в машинном обучении
    Где все берут данные? Как собирать данные из интернета: веб-скрапинг
    Разметка данных и инструменты для аннотации (Label Studio, CVAT)
    Когда данных нет — создаём сами: синтетические данные и диффузионные модели

    02. Получение качественных данных
    Научимся не просто собирать данные, а проектировать процесс их получения и поддерживать качество на всех этапах — от сбора до инференса
    Основные темы:
    Активное обучение для эффективного использования разметки
    Оценка и улучшение качества разметки: перекрёстная проверка, foundation-модели
    Мониторинг данных в продакшене и обнаружение сдвигов распределения
    Как проектировать сбор данных под задачу: сенсоры, триггеры, хранение

    03. Секреты успешных архитектур
    Разберём устройство современных нейросетей: от свёрточных блоков до трансформеров и адаптивных голов
    Основные темы:
    Адаптация больших моделей: LoRA, ControlNet, IP-Adapter
    Эволюция архитектур: от ResNet к EfficientNet и Vision Transformers
    Почему BatchNorm не всегда работает и какие есть альтернативы
    Структура нейросети: feature extractor, neck, head

    04. Обучение метрики и быстрый векторный поиск
    Научимся обучать модели, которые создают осмысленные векторные представления, и эффективно искать по ним в больших базах
    Основные темы:
    Оценка качества: Precision@K, Recall@K, Closed vs Open set
    Быстрый поиск: FAISS, Navigable Small Worlds, хэширование
    Angular Loss и ArcFace для улучшения качества эмбеддингов
    Metric Learning: обучение расстояний через contrastive и triplet loss

    05. Мультимодальные модели
    Познакомимся с моделями, объединяющими зрение и язык: от CLIP до современных VLM и retrieval-систем
    Основные темы:
    Выбор размерности эмбеддингов: Matryoshka Representation Learning
    Как обучать мультимодальные модели на парах «изображение–текст»
    Принцип работы CLIP и его модификаций (SigLIP, BLIP)

    06. Детекция объектов
    Разберём эволюцию детекторов: от якорных моделей до трансформеров и openset-подходов
    Основные темы:
    Openset-детекция с помощью foundation-моделей (Florence, GLEE)
    DETR и гибридные архитектуры на основе трансформеров
    Anchor-free подходы: CenterNet, YOLO11
    One-stage vs two-stage детекторы: SSD, RetinaNet, Faster R-CNN

    07. Сегментация
    Изучим методы сегментации: от классических U-Net до современных foundation-моделей и работы с высоким разрешением
    Основные темы:
    Foundation-модели: Segment Anything (SAM) и промптинг
    Работа с high-res изображениями и проблемными масками
    Архитектуры: U-Net, Mask R-CNN, Mask2Former
    Типы сегментации: семантическая, instance, panoptic

    08. Optical Character Recognition (OCR)
    Разберём современные подходы к распознаванию текста: от классических пайплайнов до мультимодальных VLM
    Основные темы:
    Выбор стратегии OCR в зависимости от задачи и данных
    Современные VLM для OCR: PaliGemma, Qwen-VL, DocVLM
    OCR-пайплайн: детекция + распознавание (FAST, CRNN, CTC)

    09. Поиск ошибок и интерпретируемость моделей
    Научимся отлаживать обучение, находить аномалии и понимать, почему модель принимает те или иные решения
    Основные темы:
    Интерпретация через attention, Grad-CAM, LIME, ProtoNets
    Мониторинг активаций и выходов модели в продакшене
    Поиск аномалий: Normalizing Flows, contrastive подходы
    Диагностика проблем обучения: NaN, переобучение, плато

    10. Self-supervised Learning
    Освоим методы обучения без разметки: от pretext-задач до современных SSL-алгоритмов вроде BYOL
    Основные темы:
    Практические рекомендации: аугментации, batch size, linear evaluation
    BYOL: архитектура, EMA, projector/predictor
    Pretext-задачи: восстановление, контекст, инвариантность
    Зачем нужен SSL и когда он лучше transfer learning

    11. Работа с видео
    Изучим особенности видеоданных и архитектуры для их обработки: от 3D-CNN до VideoMAE и трансформеров
    Основные темы:
    Fusion-стратегии для учёта времени
    Foundation-модели для видео и их дообучение
    Архитектуры: 3D CNN, R(2+1)D, ViViT, VideoMAE
    Структура видео: кодеки, FPS, битрейт, I/P-кадры

    12. Задачи на видео
    Погрузимся в прикладные задачи: трекинг, action recognition и multimodal-анализ
    Основные темы:
    Трекинг: SORT, Kalman Filter, матчинг, Re-ID
    Метрики качества: HOTA, DetA, AssA
    Action Recognition: от кадров до позы и аудио

    13. Дизайн ML-систем
    Научимся проектировать ML-решения как продукты: от формулировки проблемы до выбора метрик и гипотез
    Основные темы:
    Построение дерева гипотез и метрик для принятия решений
    Функциональные и нефункциональные требования к системе
    Различие между проектом и продуктом в ML

    Старт — 9 марта.
    Стоимость установит организатор
    Скрытая ссылка
     
    1 человеку нравится это.
  2. Последние события

    1. ssokkoll
      ssokkoll участвует.
      28 ноя 2025
    2. medved1986
      medved1986 участвует.
      28 ноя 2025
    3. Dakaut
      Dakaut участвует.
      27 ноя 2025
    4. JeBern
      JeBern участвует.
      27 ноя 2025