DreamBooth

dreambooth — полный fine-tune модели под конкретный объект

Раздел
Адаптеры
Обновлено
19.06.26

DreamBooth — техника тонкой настройки диффузионной модели под конкретный объект, разработанная Google Research в 2022 году. Отличие от LoRA и Textual Inversion — тренируется вся модель целиком на 3–5 примерах с использованием уникального токена-идентификатора. Файл получается размером ~6 ГБ (полный checkpoint). Главное преимущество — максимальная идентичность объекта. К 2026-му используется преимущественно для крупных коммерческих задач; LoRA вытесняет в большинстве сценариев.

Коротко

Коротко. DreamBooth — это «научить модель лицу или объекту целиком». 3–5 фотографий → 1–2 часа тренировки → новый checkpoint 6 ГБ. Внутри используется уникальный токен (sks, [V]) для обозначения объекта. Качество идентичности — лучшее среди методов настройки SD. Цена — большой файл, долгая тренировка, сложность комбинирования. В 2026 LoRA побеждает в большинстве задач, DreamBooth остаётся для премиум-проектов.

Что это такое

Август 2022-го. Команда Google Research публикует «DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation». До этого настройка SD под конкретное лицо требовала десятков примеров и часов работы. DreamBooth показывает, что достаточно 3–5 фотографий — и модель навсегда «запоминает» объект.

Главная идея — два трюка:

  1. Уникальный токен-идентификатор (sks, [V], zwx) присваивается объекту. Это редкое слово, которое модель ещё не «видела» в обучающих данных.
  2. Class-specific prior preservation loss — параллельно тренировке на объекте модель учится не «забывать» общий класс (например, «человек»). Иначе после DreamBooth все люди стали бы похожи на тренировочного.

После тренировки в промпте используется a photo of sks person, on the beach — модель рисует именно того человека, на ком тренировалась.

К 2026 году DreamBooth используется в трёх сценариях:

  • Крупные коммерческие проекты — рекламные кампании, где лицо персонажа должно быть идеально точным.
  • Аватарки и портретные сервисы (Lensa и аналоги) — внутри часто DreamBooth-пайплайн.
  • Исследования — для воспроизведения сложных артистических стилей.

Для большинства задач сообщество выбирает LoRA: 100 МБ вместо 6 ГБ, тренировка в 3× быстрее, легче комбинировать.

Как это работает

Полный цикл DreamBooth-тренировки:

  1. Подготовка данных:
    • 3–5 чётких фотографий объекта (для лица — портреты с разных ракурсов).
    • 200–500 «class images» (для человека — общие фото людей), сгенерированные той же базовой моделью.
  2. Тренировка:
    • Базовая модель + LoRA = заморозка большинства весов.
    • Или базовая модель целиком = классический DreamBooth.
    • Loss = MSE предсказанного и реального шума + prior preservation loss.
  3. Идентификатор:
    • Промпт во время тренировки: a photo of sks person.
    • Class-промпт для prior preservation: a photo of a person.
  4. Гиперпараметры:
  5. Выход: полный checkpoint (~6 ГБ для SD 1.5, ~13 ГБ для SDXL).

Тренировка идёт через kohya_ss или diffusers Python-библиотеку. На RTX 4090 (24 ГБ VRAM) — 30–90 минут для SD 1.5, 1–3 часа для SDXL. На облачных сервисах (Replicate, RunPod) — около 1–5 долларов за тренировку.

Пример на практике

Рекламной студии нужен сериал постеров с конкретным актёром. Лицо должно быть идентично — клиент платит за лицензию.

С LoRA: тренировка 30 минут, файл 100 МБ. Сходство ~90% на простых сценах, иногда «уплывает» на сложных композициях.

С DreamBooth (на SDXL): тренировка 2 часа, файл 13 ГБ. Сходство 98% даже на сложных сценах — другая одежда, освещение, поза. Лицо актёра — пиксель в пиксель, как в исходных фото.

200 постеров для рекламы → DreamBooth-checkpoint остаётся в активе студии и переиспользуется для будущих кампаний. Цена тренировки оправдана.

Для одного-двух кадров для соцсетей DreamBooth — overkill. LoRA или IP-Adapter FaceID решат задачу за минуты.

С чем часто путают

  • DreamBooth и LoRA — обе тренируют модель под объект. DreamBooth тренирует всю модель (6 ГБ файл), LoRA — поправку к слоям (100 МБ).
  • DreamBooth и Textual Inversion — TI тренирует один токен (50 КБ), DreamBooth — полную модель. Качество DreamBooth значительно выше для лиц.
  • DreamBooth и Fine-Tuning — DreamBooth это тип fine-tuning, специально для small-dataset learning с identifier-токеном. Generic fine-tuning требует тысяч примеров.
  • DreamBooth и IP-Adapter FaceID — IP-Adapter работает runtime (на этапе генерации), DreamBooth — тренировка с постоянным результатом.

Частые ошибки и заблуждения

  • «DreamBooth всегда лучше LoRA». Только по идентичности. По удобству, размеру, скорости тренировки — проигрывает. LoRA в 2026 чаще практичнее.
  • «5 фотографий — это «и хватит». Для простого объекта — да. Для лица с разной мимикой нужно 10–15 разнообразных кадров.
  • «DreamBooth работает на 6 ГБ VRAM». SD 1.5 — да. SDXL — нужно минимум 16 ГБ, желательно 24 ГБ для нормальной тренировки.
  • «DreamBooth-чекпоинт можно использовать с любым SD-чекпоинтом». Только в виде сложного мерджинга. Это полная замена базовой модели, не аддитив.
  • «После DreamBooth модель забывает остальные знания». С prior preservation loss — почти нет. Без него — да, появляется «overfitting».

Связанные термины

  • LoRA — лёгкая альтернатива DreamBooth (100 МБ vs 6 ГБ).
  • Textual Inversion — самая лёгкая альтернатива (50 КБ).
  • IP-Adapter FaceID — runtime-альтернатива без тренировки.
  • Fine-Tuning — родовая категория техник.
  • Trigger Wordтокен-идентификатор (sks, [V]) в промпте.
  • kohya_ss — главный инструмент для тренировки.
  • Prior Preservation Loss — техника против переобучения в DreamBooth.

Частые вопросы

Сколько фото нужно? 3–5 для простого объекта, 10–15 для лица с разными выражениями, 20+ для стилей. Качество и разнообразие важнее количества.

Какое VRAM нужно? SD 1.5 DreamBooth: 12 ГБ комфортно (8 ГБ с оптимизациями). SDXL: 24 ГБ. С градиент-чекпоинтингом и xformers можно ужать SDXL до 16 ГБ.

Где тренировать? Локально через kohya_ss. Облачно — Replicate ($2–3 за тренировку), RunPod ($0.4/час), Civitai Trainer.

В чём разница между DreamBooth и full fine-tune? DreamBooth — это специальный fine-tune на 3–5 примерах с identifier-токеном и prior loss. Full fine-tune требует тысяч примеров и не использует identifier.

Можно ли DreamBooth-чекпоинт превратить в LoRA? Да, через скрипт extract_lora_from_dreambooth. Получается LoRA примерно с тем же качеством, но в 60× меньше. Часто это делают для удобства распространения.

FLUX поддерживает DreamBooth? Технически да, через AI-Toolkit, но это дорого по VRAM (48+ ГБ). На практике для FLUX используют LoRA-тренировку.

Главное

DreamBooth — самый качественный, но и самый тяжёлый способ настройки SD под конкретный объект. Полная тренировка модели на 3–5 примерах даёт идентичность 95–98%, цена — 6 ГБ файл и 1–2 часа тренировки. В 2026-м используется для премиум-задач: реклама с конкретным актёром, портретные сервисы, исследования. Для большинства проектов сообщество выбирает LoRA — на порядок легче при потере 5–10% качества.