Открыто

Курс LLM Pro [DeepSchool] [Дмитрий Калашников, Сергей Трубецкой]

Тема в разделе "Курсы по программированию", создана пользователем Топикстартер, 12 ноя 2025.

Основной список: 33 участников

  1. 12 ноя 2025
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба

    Складчина: Курс LLM Pro [DeepSchool] [Дмитрий Калашников, Сергей Трубецкой]

    2025-11-13_031512.png

    Соберёте полноценные LLM-системы с учётом требований к качеству и нагрузке, разберёте сложные кейсы и дизайны NLP-решений

    Этот курс для тех, кто:
    • Работает с текстами - вы NLP-инженер, дата-сайентист или разработчик
    • Хочет расти, решать более сложные задачи, уверенно проходить интервью
    • Умеет обучать моделии, но не собирал из них полноценные системы
    • Делает продукт или стартап и хочет быстро запустить надёжное NLP-решение
    • Понимает: prompt-инженерии и API уже недостаточно, пора строить своё
    Что вы получите от курса:
    • Научитесь проектировать и запускать NLP-системы под реальные продуктовые задачи
    • Освоите адаптацию LLM и эмбеддингов под специфичный домен и «живые» данные
    • Построите AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой
    • Поймёте, как собирать и размечать датасеты, даже если данных почти нет
    • Сможете собрать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
    • Разберёте реальные кейсы и научитесь применять похожие подходы в своих проектах
    • Получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд
    • Разберётесь, как решать задачи классификации, поиска, кластеризации и NER — с ограничениями продакшн-среды
    Программа

    01. Архитектура систем текстовой классификации
    Разберём ключевые архитектурные паттерны современных систем текстовой классификации. Вспомним, как использовать BERT и его альтернативы, обсудим подходы с дообучаемыми головами и дистилляцией больших моделей. Поговорим о способах работы с меняющимся распределением данных и техниках, которые помогают строить более устойчивые модели
    Эвристики и итеративное улучшение
    Работа с данными при их дефиците
    Генеративный классификатор с reasoning
    Дистилляция LLM в компактную модель
    Дообучаемые головы
    BERT и альтернативы

    02. Построение доменных текстовых эмбеддингов
    Углубимся в работу с эмбеддингами: от дообучения собственного BERT под специфичный домен до использования triplet loss и contrastive learning. Рассмотрим практики, как строить эмбеддинги для сложных структур. Обсудим, когда и как адаптировать эмбеддеры к новым распределениям данных
    Существующие открытые эмбеддеры
    Доменная адаптация эмбеддеров
    Matching задач через эмбеддинги
    Профили и последовательности
    Triplet loss, contrastive learning
    BERT и альтернативы

    03. Кластеризация текстов: в офлайне и в реальном времени
    Изучим, как кластеризовать тексты в офлайне и в потоке. Обсудим популярные методы визуализации и алгоритмы кластеризации, включая нейросетевые. Разберём решения на примере кейсов
    Архитектура и инфраструктура онлайн-кластеризации
    Бинарные автоэнкодеры
    Онлайн кластеризация
    UMAP, T-SNE, LSH

    04. Сбор данных и разметка: от формулировки задачи до крауда
    Разберёмся, как правильно ставить задачи и собирать датасеты под реальные задачи. Поговорим про активное обучение, разметку через кластеризацию и LLM, а также про лучшие практики работы с краудплатформами
    Крауд: Toloka, MTurk
    Инструкции, ханипоты, проверка качества
    Selfinstruct, LIMA
    Active learning
    Разметка через LLM и кластеризацию
    Критичность и массовость ошибок
    Постановка задач и требования к данным

    05. Named Entity Recognition: от BERT до генеративных моделей
    Рассмотрим подходы к извлечению сущностей из текста: от эвристик до BERT и генеративных моделей. Научимся мерить качество, решать проблемы со смещением данных и использовать LLM как инструмент для разметки и обучения
    Разбор кейсов
    Метрики качества
    LLM в разметке и дообучении
    Дообучение и адаптация под домен
    BERT vs генеративные подходы
    Постановка задачи и проблемы NER

    06. Адаптация LLM под домен
    Углубимся в методы адаптации LLM под специфические задачи и домены. Обсудим посттрейнинг, SFT, настройку токенизатора, а также принципы alignment’а. На реальных кейсах разберём, как подходить к адаптации системно
    Работа с галлюцинациями
    Разбор кейсов
    Чистка и генерация датасетов
    Alignment через данные
    Supervised Fine-tuning (SFT)
    Токенизаторы и continious pretrain
    Посттрейнинг на домен

    07. Проектирование систем текстового поиска
    Научимся проектировать поисковые системы от базовых принципов до продвинутых техник. Обсудим dense retrieval, hybrid search, построение индексов, персонализацию и мультимодальный поиск
    Мультимодальный поиск
    Фактчекинг
    Персонализация, расширение запросов
    Elasticsearch, FAISS
    Sentence-BERT, DPR
    TF-IDF, BM25

    08. Advanced RAG: создание и тюнинг продакшн-систем
    Разберём продвинутые подходы к созданию и улучшению RAG-систем. От ретривера и реранкера до генератора и архитектуры всего пайплайна. Покажем, как бороться с галлюцинациями, ускорять работу и планировать нагрузку
    Предсказание качества до генерации
    Оптимизация под железо
    Достоверность, краткость, ссылки
    Кэш, дистилляция, стриминг
    Память и сложные базы знаний
    Генерация ответов, SFT, posttraining
    Подстройка эмбеддера и реранкера
    RAG: структура и этапы

    09. AI-агенты: как построить рабочего ассистента с нуля
    Разберёмся, как построить AI-агента, даже если вначале нет ничего. Поговорим про сбор данных, дообучение моделей под function calls, использование text2sql, а также alignment и обучение через среду с критериями успеха
    Alignment для агентов
    Кейсы и подходы к обучению
    Критерии успешности
    Генерация траекторий через среду
    Сценарии взаимодействия
    Text2SQL
    Function calls
    Основные темы:

    Кто будет преподавать
    Опытные инженеры будут вести Zoom-лекции и семинары, отвечать на ваши вопросы и ревьюить код

    Стоимость: 137000 руб.
    Скрытая ссылка
     
    2 пользователям это понравилось.
  2. Последние события

    1. Matvei28
      Matvei28 участвует.
      23 ноя 2025
    2. Smextene
      Smextene участвует.
      22 ноя 2025
    3. 07pia05
      07pia05 участвует.
      21 ноя 2025
    4. masta1
      masta1 участвует.
      21 ноя 2025