DreamBooth
dreambooth — полный fine-tune модели под конкретный объект
DreamBooth — техника тонкой настройки диффузионной модели под конкретный объект, разработанная Google Research в 2022 году. Отличие от LoRA и Textual Inversion — тренируется вся модель целиком на 3–5 примерах с использованием уникального токена-идентификатора. Файл получается размером ~6 ГБ (полный checkpoint). Главное преимущество — максимальная идентичность объекта. К 2026-му используется преимущественно для крупных коммерческих задач; LoRA вытесняет в большинстве сценариев.
Коротко
Коротко. DreamBooth — это «научить модель лицу или объекту целиком». 3–5 фотографий → 1–2 часа тренировки → новый checkpoint 6 ГБ. Внутри используется уникальный токен (
sks,[V]) для обозначения объекта. Качество идентичности — лучшее среди методов настройки SD. Цена — большой файл, долгая тренировка, сложность комбинирования. В 2026 LoRA побеждает в большинстве задач, DreamBooth остаётся для премиум-проектов.
Что это такое
Август 2022-го. Команда Google Research публикует «DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation». До этого настройка SD под конкретное лицо требовала десятков примеров и часов работы. DreamBooth показывает, что достаточно 3–5 фотографий — и модель навсегда «запоминает» объект.
Главная идея — два трюка:
- Уникальный токен-идентификатор (
sks,[V],zwx) присваивается объекту. Это редкое слово, которое модель ещё не «видела» в обучающих данных. - Class-specific prior preservation loss — параллельно тренировке на объекте модель учится не «забывать» общий класс (например, «человек»). Иначе после DreamBooth все люди стали бы похожи на тренировочного.
После тренировки в промпте используется a photo of sks person, on the beach — модель рисует именно того человека, на ком тренировалась.
К 2026 году DreamBooth используется в трёх сценариях:
- Крупные коммерческие проекты — рекламные кампании, где лицо персонажа должно быть идеально точным.
- Аватарки и портретные сервисы (Lensa и аналоги) — внутри часто DreamBooth-пайплайн.
- Исследования — для воспроизведения сложных артистических стилей.
Для большинства задач сообщество выбирает LoRA: 100 МБ вместо 6 ГБ, тренировка в 3× быстрее, легче комбинировать.
Как это работает
Полный цикл DreamBooth-тренировки:
- Подготовка данных:
- 3–5 чётких фотографий объекта (для лица — портреты с разных ракурсов).
- 200–500 «class images» (для человека — общие фото людей), сгенерированные той же базовой моделью.
- Тренировка:
- Базовая модель + LoRA = заморозка большинства весов.
- Или базовая модель целиком = классический DreamBooth.
- Loss = MSE предсказанного и реального шума + prior preservation loss.
- Идентификатор:
- Промпт во время тренировки:
a photo of sks person. - Class-промпт для prior preservation:
a photo of a person.
- Промпт во время тренировки:
- Гиперпараметры:
- Learning rate: 1e-6 для SD 1.5, 2e-6 для SDXL.
- Steps: 800–2000 в зависимости от датасета.
- Train batch size: 1 (требует много VRAM).
- Выход: полный checkpoint (~6 ГБ для SD 1.5, ~13 ГБ для SDXL).
Тренировка идёт через kohya_ss или diffusers Python-библиотеку. На RTX 4090 (24 ГБ VRAM) — 30–90 минут для SD 1.5, 1–3 часа для SDXL. На облачных сервисах (Replicate, RunPod) — около 1–5 долларов за тренировку.
Пример на практике
Рекламной студии нужен сериал постеров с конкретным актёром. Лицо должно быть идентично — клиент платит за лицензию.
С LoRA: тренировка 30 минут, файл 100 МБ. Сходство ~90% на простых сценах, иногда «уплывает» на сложных композициях.
С DreamBooth (на SDXL): тренировка 2 часа, файл 13 ГБ. Сходство 98% даже на сложных сценах — другая одежда, освещение, поза. Лицо актёра — пиксель в пиксель, как в исходных фото.
200 постеров для рекламы → DreamBooth-checkpoint остаётся в активе студии и переиспользуется для будущих кампаний. Цена тренировки оправдана.
Для одного-двух кадров для соцсетей DreamBooth — overkill. LoRA или IP-Adapter FaceID решат задачу за минуты.
С чем часто путают
- DreamBooth и LoRA — обе тренируют модель под объект. DreamBooth тренирует всю модель (6 ГБ файл), LoRA — поправку к слоям (100 МБ).
- DreamBooth и Textual Inversion — TI тренирует один токен (50 КБ), DreamBooth — полную модель. Качество DreamBooth значительно выше для лиц.
- DreamBooth и Fine-Tuning — DreamBooth это тип fine-tuning, специально для small-dataset learning с identifier-токеном. Generic fine-tuning требует тысяч примеров.
- DreamBooth и IP-Adapter FaceID — IP-Adapter работает runtime (на этапе генерации), DreamBooth — тренировка с постоянным результатом.
Частые ошибки и заблуждения
- «DreamBooth всегда лучше LoRA». Только по идентичности. По удобству, размеру, скорости тренировки — проигрывает. LoRA в 2026 чаще практичнее.
- «5 фотографий — это «и хватит». Для простого объекта — да. Для лица с разной мимикой нужно 10–15 разнообразных кадров.
- «DreamBooth работает на 6 ГБ VRAM». SD 1.5 — да. SDXL — нужно минимум 16 ГБ, желательно 24 ГБ для нормальной тренировки.
- «DreamBooth-чекпоинт можно использовать с любым SD-чекпоинтом». Только в виде сложного мерджинга. Это полная замена базовой модели, не аддитив.
- «После DreamBooth модель забывает остальные знания». С prior preservation loss — почти нет. Без него — да, появляется «overfitting».
Связанные термины
- LoRA — лёгкая альтернатива DreamBooth (100 МБ vs 6 ГБ).
- Textual Inversion — самая лёгкая альтернатива (50 КБ).
- IP-Adapter FaceID — runtime-альтернатива без тренировки.
- Fine-Tuning — родовая категория техник.
- Trigger Word — токен-идентификатор (
sks,[V]) в промпте. - kohya_ss — главный инструмент для тренировки.
- Prior Preservation Loss — техника против переобучения в DreamBooth.
Частые вопросы
Сколько фото нужно? 3–5 для простого объекта, 10–15 для лица с разными выражениями, 20+ для стилей. Качество и разнообразие важнее количества.
Какое VRAM нужно? SD 1.5 DreamBooth: 12 ГБ комфортно (8 ГБ с оптимизациями). SDXL: 24 ГБ. С градиент-чекпоинтингом и xformers можно ужать SDXL до 16 ГБ.
Где тренировать?
Локально через kohya_ss. Облачно — Replicate ($2–3 за тренировку), RunPod ($0.4/час), Civitai Trainer.
В чём разница между DreamBooth и full fine-tune? DreamBooth — это специальный fine-tune на 3–5 примерах с identifier-токеном и prior loss. Full fine-tune требует тысяч примеров и не использует identifier.
Можно ли DreamBooth-чекпоинт превратить в LoRA?
Да, через скрипт extract_lora_from_dreambooth. Получается LoRA примерно с тем же качеством, но в 60× меньше. Часто это делают для удобства распространения.
FLUX поддерживает DreamBooth? Технически да, через AI-Toolkit, но это дорого по VRAM (48+ ГБ). На практике для FLUX используют LoRA-тренировку.
Главное
DreamBooth — самый качественный, но и самый тяжёлый способ настройки SD под конкретный объект. Полная тренировка модели на 3–5 примерах даёт идентичность 95–98%, цена — 6 ГБ файл и 1–2 часа тренировки. В 2026-м используется для премиум-задач: реклама с конкретным актёром, портретные сервисы, исследования. Для большинства проектов сообщество выбирает LoRA — на порядок легче при потере 5–10% качества.