Открыто

DeepSchool — Ускорение нейросетей [Александр Гончаренко, Артур Панюков, Илья Ревин]

Тема в разделе "Нейросети и искусственный интеллект", создана пользователем Топикстартер, 17 ноя 2025.

Основной список: 7 участников

  1. 17 ноя 2025
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба

    Складчина: DeepSchool — Ускорение нейросетей [Александр Гончаренко, Артур Панюков, Илья Ревин]

    y1131ZAB.png

    Научитесь решать задачи эффективно

    Поймёте теорию, узнаете про основные сложности и отточите знания на практике

    Курс для тех, кто уже работает в индустрии и хочет:
    • Разобраться в теории
    • Освоить фреймворки
    • Поднять скиллы
    • Перенять опыт
    • Чтобы понимать, как работает каждый метод ускорения сетей
    • И оптимальным образом ускорять модели под каждый вычислитель
    • Освоить востребованный навык, чтобы поднять свою ценность
    • Узнать про все сложности от экспертов области
    Чему вы научитесь:
    • Ускорять инференс за счёт изменения архитектуры и утилизации вычислителя
    • Узнаете, как устроен каждый алгоритм: дистилляция, прунинг, квантизация, матричные разложения и NAS
    • Совмещать все методы воедино
    • Сможете комбинировать различные подходы и решать вытекающие трудности
    • Запускать инференс на различных устройствах
    • Разберетесь в устройстве CPU, GPU, NPU и научитесь запускать сети на смартфонах и микрокомпьютерах
    • Сохранять точность при ускорении
    • Создавать модели с высокой точностью и высоким fps даже на одноплатных компьютерах
    Программа
    Блок 1. База – 8 лекций
    1. Distillation
    2. Pruning
    3. Low-Precision computing
    4. NAS
    5. Эффективные архитектуры
    6. Инференс на процессоре
    7. Инференс на графическом ускорителе. Part 1
    8. Инференс на графическом ускорителе. Part 2

    Блок 2. LLM – 2 лекции
    1. Основы ускорения LLM
    2. Специфичные методы ускорения LLM

    Блок 3. Device – 3 лекции
    1. CPU. Part 2: ARM + Android
    2. CPU. Part 3: ARM + iOS
    3. Одноплатники и их особенности для нейросетей

    Блок 1. База – 8 лекций
    Научитесь ускорять инференс за счёт изменения архитектуры сети. Проведёте нейросеть через прунинг, квантизацию и дистилляцию. А ещё познакомитесь с ускорением сетей на популярных x86 CPU и GPU

    1. Distillation
    Метод для улучшения точности нейронной сети. При комбинации с другими методами — для ее ускорения
    Темы лекции:
    • Дистилляция и DarkKnowledge
    • Функции потерь для дистилляции: MSE / KLD / MAE
    • Дистилляция для ускорения моделей
    • Дистилляция в классических CV-задачах: classification, detection, identification
    На практике:
    Научитесь дистиллировать сеть для сегментации людей

    2. Pruning
    Метод для сокращения вычислительных операций за счет выброса лишних нейронов
    Темы лекции:
    • Критерии прунинга: L1 / L2 / taylor
    • Структурированный и неструктурированный прунинг
    • Фундаментальные свойства нейронной сети и lottery ticket hypothesis
    На практике:
    Научитесь прунить нейронную сеть с фреймворком для структурированного прунинга torch-pruning

    3. Low-Precision computing
    Квантование нужно для представления нейронной сети через тип данных, меньший исходного. С его помощью она сможет использоваться на устройстве с малыми вычислительными ресурсами

    Темы лекции:
    • 8-ми битное квантование
    • Quantization aware training как способ улучшения качества нейронной сети
    • Нестандартные типы данных: fp16 / fp8 / bfloat16
    На практике:
    Научитесь пользоваться фреймворком квантования torch.quantization/qnnpack
    • Post-Train quantization как способ заквантовать сетку без головной боли
    • Cовременные методы квантования: HAWQ и HAWQ-v2
    4. NAS
    Метод для оптимального подбора архитектуры сети под конкретные задачи
    Темы лекции:
    • Дифференцируемый и недифференцируемый NAS
    • DARTs как основа всех методов для дифф прунинга
    • Суперсети и подархитектуры, их связь с прунингом
    • Способы обучения суперсетей
    • Zero-shot NAS
    5. Эффективные архитектуры
    Эффективные архитектуры нейронных сетей для решения самых разных задач
    Темы лекции:
    • Общие эффективные ахитектуры: MobileOne, FastVit
    • Эффективные архитектуры для детекции, или жизнь без Yolo
    • Сегментация PIDNet и DDR-Net
    • Эффективный speech2text
    6. Инференс на процессоре
    Инференс на процессоре для ускорения нейронной сети
    Темы лекции:
    • Базовое устройство процессора
    • x86 vs ARM: особенности инференса
    На практике:
    Научитесь пользоваться фреймворком для квантования OpenVINO

    7. Инференс на графическом ускорителе. Part 1
    Инференс на графическом ускорителе нейронной сети
    Темы лекции:
    • Особенности работы GPU
    • Принцип работы TensorRT
    • Понятие CudaGraph
    На практике:
    Научитесь применять квантование на TRT

    8. Инференс на графическом ускорителе. Part 2
    Инференс на графическом ускорителе нейронной сети
    Темы лекции:
    • Cuda Event: как работают профилировщики на его основе
    • Cuda Event: как померить latency отдельных операций на конкретном примере
    На практике:
    Научитесь применять квантование на TRT
    • Профайлинг в торче
    • TensorRT: как посмотреть оптимизированный граф
    • TensorRT [advanced]: как запретить оптимизировать отдельные операции
    Блок 2. LLM – 2 лекции
    Познакомитесь с методами ускорения, специфичными для больших языковых моделей
    1. Основы ускорения LLM
    Основные рабочие лошадки для ускорения LLM'ок
    Темы лекции:
    • MemoryBound вычисления, или как сделать attention быстрее
    • Особенности квантования LLM
    • Современные методы и механизмы квантования: QuIP, QuIP#, AQLM
    • Sparse-перемножение матриц и принцип работы SparseGPT
    На практике:
    Изучите и сравните современные библиотеки для локального инфренса LLM

    2. Специфичные методы ускорения LLM
    Дополнительные механизмы ускорения с обзором небольших и крупных языковых моделей
    Темы лекции:
    • Conditional Inference
    • Speculative decoding
    • Small Large Language Models
    На практике:
    Ускорите LLM с помощью этих методов
    • Современные opensource-фреймворки для ускорения: vLLM, TensorRT-LLM, GGML

    Блок 3. Device – 3 лекции
    Научитесь запускать нейронные сети на Android, iOS и микрокомпьютерах

    1. CPU. Part 2: ARM + Android
    Создание простого приложения на мобильном устройстве с использованием нейросетей и её запуск на конкретном девайсе
    Темы лекции:
    • Особенности ОС Android
    • Что такое делегаты и какими они бывают
    • NN-API как основной делегат для запуска
    • Квантование TFLite
    На практике:
    Сравните ускорения разных нейронных сетей на мобильном телефоне

    2. CPU. Part 3: ARM + iOS
    То же самое, но на iPhone с его фреймворками для запуска
    Темы лекции:
    • Устройство iOS
    • Фреймворк CoreML
    • Низкоуровневые фреймворки: Metal, BNNS, Accelerate
    На практике:
    Создадите свое приложение с ускоренной нейронной сетью
    Микроконтроллеры

    3. Одноплатники и их особенности для нейросетей
    Темы лекции:
    • Устройство и ключевые особенности
    • Производители микрокомпьютеров
    • Проблемные слои
    На практике:
    Запустите нейронную сеть на RKNN-фреймворке для rock chip
    • Использование фреймворка MNN
    • Квантование в iOS
    • Общий workflow

    Предзапись
    Цену укажет организатор
    Скрытая ссылка
     
    3 пользователям это понравилось.
  2. Последние события

    1. Money Maker LTD
      Money Maker LTD участвует.
      22 ноя 2025
    2. Chis1980
      Chis1980 участвует.
      19 ноя 2025
    3. dyadyagen
      dyadyagen участвует.
      18 ноя 2025
    4. skladchik.com
      В складчине участвует 5 человек(а).
      18 ноя 2025
  3. Обсуждение
  4. 29 ноя 2025
    #2
    Money Maker LTD
    Money Maker LTD ЧКЧлен клуба
    Мне кажется, это не тот раздел.