DreamBooth

Q: Можно ли DreamBooth-чекпоинт превратить в LoRA?

Да, через скрипт extract_lora_from_dreambooth. Получается LoRA примерно с тем же качеством, но в 60× меньше. Часто это делают для удобства распространения.

dreambooth — полный fine-tune модели под конкретный объект

Раздел: Адаптеры
Обновлено: 19.06.26

DreamBooth — техника тонкой настройки диффузионной модели под конкретный объект, разработанная Google Research в 2022 году. Отличие от LoRA и Textual Inversion — тренируется вся модель целиком на 3–5 примерах с использованием уникального токена-идентификатора. Файл получается размером ~6 ГБ (полный checkpoint). Главное преимущество — максимальная идентичность объекта. К 2026-му используется преимущественно для крупных коммерческих задач; LoRA вытесняет в большинстве сценариев.

Коротко

Коротко. DreamBooth — это «научить модель лицу или объекту целиком». 3–5 фотографий → 1–2 часа тренировки → новый checkpoint 6 ГБ. Внутри используется уникальный токен (sks, [V]) для обозначения объекта. Качество идентичности — лучшее среди методов настройки SD. Цена — большой файл, долгая тренировка, сложность комбинирования. В 2026 LoRA побеждает в большинстве задач, DreamBooth остаётся для премиум-проектов.

Что это такое

Август 2022-го. Команда Google Research публикует «DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation». До этого настройка SD под конкретное лицо требовала десятков примеров и часов работы. DreamBooth показывает, что достаточно 3–5 фотографий — и модель навсегда «запоминает» объект.

Главная идея — два трюка:

Уникальный токен-идентификатор (sks, [V], zwx) присваивается объекту. Это редкое слово, которое модель ещё не «видела» в обучающих данных.
Class-specific prior preservation loss — параллельно тренировке на объекте модель учится не «забывать» общий класс (например, «человек»). Иначе после DreamBooth все люди стали бы похожи на тренировочного.

После тренировки в промпте используется a photo of sks person, on the beach — модель рисует именно того человека, на ком тренировалась.

К 2026 году DreamBooth используется в трёх сценариях:

Крупные коммерческие проекты — рекламные кампании, где лицо персонажа должно быть идеально точным.
Аватарки и портретные сервисы (Lensa и аналоги) — внутри часто DreamBooth-пайплайн.
Исследования — для воспроизведения сложных артистических стилей.

Для большинства задач сообщество выбирает LoRA: 100 МБ вместо 6 ГБ, тренировка в 3× быстрее, легче комбинировать.

Как это работает

Полный цикл DreamBooth-тренировки:

Подготовка данных:
- 3–5 чётких фотографий объекта (для лица — портреты с разных ракурсов).
- 200–500 «class images» (для человека — общие фото людей), сгенерированные той же базовой моделью.
Тренировка:
- Базовая модель + LoRA = заморозка большинства весов.
- Или базовая модель целиком = классический DreamBooth.
- Loss = MSE предсказанного и реального шума + prior preservation loss.
Идентификатор:
- Промпт во время тренировки: a photo of sks person.
- Class-промпт для prior preservation: a photo of a person.
Гиперпараметры:
- Learning rate: 1e-6 для SD 1.5, 2e-6 для SDXL.
- Steps: 800–2000 в зависимости от датасета.
- Train batch size: 1 (требует много VRAM).
Выход: полный checkpoint (~6 ГБ для SD 1.5, ~13 ГБ для SDXL).

Тренировка идёт через kohya_ss или diffusers Python-библиотеку. На RTX 4090 (24 ГБ VRAM) — 30–90 минут для SD 1.5, 1–3 часа для SDXL. На облачных сервисах (Replicate, RunPod) — около 1–5 долларов за тренировку.

Пример на практике

Рекламной студии нужен сериал постеров с конкретным актёром. Лицо должно быть идентично — клиент платит за лицензию.

С LoRA: тренировка 30 минут, файл 100 МБ. Сходство ~90% на простых сценах, иногда «уплывает» на сложных композициях.

С DreamBooth (на SDXL): тренировка 2 часа, файл 13 ГБ. Сходство 98% даже на сложных сценах — другая одежда, освещение, поза. Лицо актёра — пиксель в пиксель, как в исходных фото.

200 постеров для рекламы → DreamBooth-checkpoint остаётся в активе студии и переиспользуется для будущих кампаний. Цена тренировки оправдана.

Для одного-двух кадров для соцсетей DreamBooth — overkill. LoRA или IP-Adapter FaceID решат задачу за минуты.

С чем часто путают

DreamBooth и LoRA — обе тренируют модель под объект. DreamBooth тренирует всю модель (6 ГБ файл), LoRA — поправку к слоям (100 МБ).
DreamBooth и Textual Inversion — TI тренирует один токен (50 КБ), DreamBooth — полную модель. Качество DreamBooth значительно выше для лиц.
DreamBooth и Fine-Tuning — DreamBooth это тип fine-tuning, специально для small-dataset learning с identifier-токеном. Generic fine-tuning требует тысяч примеров.
DreamBooth и IP-Adapter FaceID — IP-Adapter работает runtime (на этапе генерации), DreamBooth — тренировка с постоянным результатом.

Частые ошибки и заблуждения

«DreamBooth всегда лучше LoRA». Только по идентичности. По удобству, размеру, скорости тренировки — проигрывает. LoRA в 2026 чаще практичнее.
«5 фотографий — это «и хватит». Для простого объекта — да. Для лица с разной мимикой нужно 10–15 разнообразных кадров.
«DreamBooth работает на 6 ГБ VRAM». SD 1.5 — да. SDXL — нужно минимум 16 ГБ, желательно 24 ГБ для нормальной тренировки.
«DreamBooth-чекпоинт можно использовать с любым SD-чекпоинтом». Только в виде сложного мерджинга. Это полная замена базовой модели, не аддитив.
«После DreamBooth модель забывает остальные знания». С prior preservation loss — почти нет. Без него — да, появляется «overfitting».

Связанные термины

LoRA — лёгкая альтернатива DreamBooth (100 МБ vs 6 ГБ).
Textual Inversion — самая лёгкая альтернатива (50 КБ).
IP-Adapter FaceID — runtime-альтернатива без тренировки.
Fine-Tuning — родовая категория техник.
Trigger Word — токен-идентификатор (sks, [V]) в промпте.
kohya_ss — главный инструмент для тренировки.
Prior Preservation Loss — техника против переобучения в DreamBooth.

Частые вопросы

Сколько фото нужно? 3–5 для простого объекта, 10–15 для лица с разными выражениями, 20+ для стилей. Качество и разнообразие важнее количества.

Какое VRAM нужно? SD 1.5 DreamBooth: 12 ГБ комфортно (8 ГБ с оптимизациями). SDXL: 24 ГБ. С градиент-чекпоинтингом и xformers можно ужать SDXL до 16 ГБ.

Где тренировать? Локально через kohya_ss. Облачно — Replicate (~~$2–3 за тренировку), RunPod (~~$0.4/час), Civitai Trainer.

В чём разница между DreamBooth и full fine-tune? DreamBooth — это специальный fine-tune на 3–5 примерах с identifier-токеном и prior loss. Full fine-tune требует тысяч примеров и не использует identifier.

Можно ли DreamBooth-чекпоинт превратить в LoRA? Да, через скрипт extract_lora_from_dreambooth. Получается LoRA примерно с тем же качеством, но в 60× меньше. Часто это делают для удобства распространения.

FLUX поддерживает DreamBooth? Технически да, через AI-Toolkit, но это дорого по VRAM (48+ ГБ). На практике для FLUX используют LoRA-тренировку.

Главное

DreamBooth — самый качественный, но и самый тяжёлый способ настройки SD под конкретный объект. Полная тренировка модели на 3–5 примерах даёт идентичность 95–98%, цена — 6 ГБ файл и 1–2 часа тренировки. В 2026-м используется для премиум-задач: реклама с конкретным актёром, портретные сервисы, исследования. Для большинства проектов сообщество выбирает LoRA — на порядок легче при потере 5–10% качества.

Большие разборы по теме

Все разборы →

Большой разбор 32 мин чтения

Stable Diffusion: полный гид по генерации картинок и видео в 2026

Stable Diffusion — это открытая нейросеть, которая превращает текст в картинки. С 2022 года она стала стандартом индустрии: на ней работают ComfyUI,…

Что дальше:

Этот раздел Все термины: Адаптеры → Изучить тему системно — от базовых понятий до продвинутых. Если вы новичок Начать с основ: что такое AI → Один термин, с которого стоит начать знакомство с темой. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное из 156 статей.