Regional Prompting

regional prompting — разные промпты для разных областей кадра

Раздел
Промпты
Обновлено
18.05.26

Regional Prompting — техника, которая разрешает использовать **разные промпты для разных областей** одного изображения. Левый верхний угол — «горный пейзаж», нижний — «бегущая лиса», середина — «закатное солнце». Решает главную проблему классических промптов: одно описание на всё изображение приводит к смешиванию атрибутов между объектами. Реализуется через расширения вроде Regional Prompter в AUTOMATIC1111 и Attention Couple в ComfyUI.

Коротко

Коротко. Regional Prompting — техника покадрового описания: разные части изображения получают свои промпты. «Девушка слева в красном платье, мужчина справа в синем костюме» — без regional prompting модель часто смешивает: красный костюм у мужчины, синее платье у девушки. С regional каждая зона держит свои атрибуты. Реализуется расширениями: Regional Prompter в AUTOMATIC1111, Attention Couple и Mask Conditioning в ComfyUI.

Что это такое

Иллюстратор делает промо-кадр для веб-сериала. Двое героев в одном кадре. Промпт:

detailed scene, woman in red dress with blonde hair on the left,
man in blue suit with dark hair on the right, cinematic lighting

Запускает 12 раз. Получает: блондинка в синем платье и мужчина в красном костюме. Девушка с тёмными волосами и блондин-парень. Двое в красно-синих платьях. Атрибуты летают между персонажами по всему кадру.

Это и есть классическая беда: модель видит одну строку текста на всё изображение. Атрибуты «red dress», «blonde hair», «blue suit», «dark hair» оседают в attention-слоях для всей картинки сразу. Как именно они «прилипнут» к фигурам — лотерея.

Regional Prompting решает проблему хирургически: разрезает изображение на области и присваивает каждой собственный промпт. Левая половина видит только описание женщины. Правая — только мужчины. Середина (если разделена) — только фон.

К 2026-му это стандартная техника для:

  • Многоперсонажных композиций.
  • Сцен с конкретным размещением объектов («справа замок, слева море»).
  • Stylized split-screen картинок.
  • Кадров для сторибордов и комиксов.

Как это работает

Идея проста, реализация хитрая. Diffusion-модель внутри использует cross-attention: текстовый промпт «накладывается» на каждый пиксель латента. Regional prompting переписывает этот шаг.

Алгоритм:

  1. Разделение кадра. Пользователь определяет области: вертикальные/горизонтальные полосы, прямоугольники, маски произвольной формы.
  2. Свой промпт каждой области. Список текстов, по одному на регион.
  3. Cross-attention с маской. В момент sampling'а внутренний механизм для каждого пикселя берёт только тот промпт, который относится к его региону. Остальные «не видны».
  4. Базовый промпт (опционально). Часто добавляют общий промпт для всего кадра — стиль, освещение, качество. Он применяется к всем регионам поверх индивидуальных.

В AUTOMATIC1111 базовый формат записи (Regional Prompter):

landscape with mountains, blue sky
ADDCOL
woman in red dress, blonde hair
ADDCOL
man in blue suit, dark hair

ADDCOL делит кадр на колонки. ADDROW — на строки. Можно комбинировать.

В ComfyUI используется нода Conditioning (Set Mask) или специализированные Attention Couple / Regional Conditioning. Каждому промпту даётся маска (чёрно-белое изображение), которая определяет область применения.

Пример на практике

Дизайнер делает обложку для книги: фэнтези-сцена с двумя главными героями.

Цель:

  • Левая половина — эльф в зелёной мантии с серебряными волосами.
  • Правая половина — гном в кожаной броне с рыжей бородой.
  • Фон — горы и закатное небо.

Без regional:

fantasy book cover, elf in green robe with silver hair on the left,
dwarf in leather armor with red beard on the right, mountain background, sunset

Из 16 генераций — ни одна не работает. То два эльфа, то у гнома серебряная борода.

С regional (ComfyUI, Attention Couple):

  1. Делает 3 маски в Photoshop: левая половина (эльф), правая половина (гном), фон (нижняя треть + всё пустое).
  2. В ComfyUI: 3 ноды CLIPTextEncode, каждая со своим промптом.
  3. Подключает к ноде AttentionCouple с соответствующими масками.
  4. Базовый промпт fantasy book cover, cinematic lighting, sunset идёт без маски (на весь кадр).

С первого запуска: эльф слева в зелёном, гном справа в коже, горы на фоне. Атрибуты не путаются. Если зашёл криво — слегка смягчает границы (feather=20) и перезапускает.

В FLUX и SDXL regional prompting тоже работает, но через другие ноды: RegionalPromptingFLUX, LoRA Block Weight Multi. Принцип тот же — маска плюс собственный текст.

С чем часто путают

  • Regional Prompting и Inpainting — Inpainting рисует в маске на готовой картинке. Regional Prompting генерирует с нуля разные регионы одновременно.
  • Regional Prompting и ControlNet — ControlNet задаёт геометрию (позы, контуры). Regional задаёт семантику (что должно быть в каждой области).
  • Regional и LoRA — LoRA меняет глобальный стиль модели. Regional меняет, что именно рисуется в каждой части.
  • Regional и Composition prompt — обычное описание композиции в одном промпте («cat on the left, dog on the right») часто не работает: модель не понимает «лево/право» в координатном смысле.
  • Attention Couple и AND-prompts — старый трюк prompt1 AND prompt2 смешивает промпты во всех областях одинаково. Attention Couple разделяет по регионам.

Частые ошибки и заблуждения

  • «Regional Prompting гарантирует точное расположение объектов». Не гарантирует. Маска управляет attention, но композиция всё равно зависит от seed'а и модели. Иногда объект выходит за границы маски.
  • «Чем больше регионов, тем лучше контроль». До 4–6 регионов работает хорошо. Дальше модель начинает «теряться»: маски конфликтуют, появляются артефакты на границах.
  • «Regional работает с любой моделью». Принципиально — да. Но качество зависит от модели: SDXL и FLUX работают лучше, чем SD 1.5, потому что их attention более структурирован.
  • «Жёсткие границы лучше мягких». Часто наоборот. Мягкий feather на границах даёт более естественные переходы между объектами. Жёсткие края провоцируют швы.
  • «Regional заменяет ControlNet». Дополняет. Regional + ControlNet — мощная комбинация: ControlNet задаёт позы и контуры, Regional — кто во что одет.

Связанные термины

  • Prompt — основа, на которую наращивается regional.
  • Cross-attention — внутренний механизм, который regional переписывает.
  • Inpainting — альтернативный путь работы с областями.
  • ControlNet — комплементарная техника контроля.
  • Mask — определяет границы региона.
  • Attention Couple — конкретная нода ComfyUI для regional.
  • Regional Prompter — расширение AUTOMATIC1111.

Частые вопросы

В каком разрешении работает regional prompting? В любом, но удобнее на больших (1024×1024+). На маленьком разрешении регионы получаются грубыми, переходы заметны.

Можно ли использовать LoRA внутри регионов? Да. Расширения LoRA Block Weight и Regional LoRA позволяют включать LoRA только в одном регионе (например, character-LoRA активна только в левой половине).

Сколько регионов помещается в один кадр? Практически — 2–6. Дальше начинаются конфликты в attention, артефакты на границах. Для сложных сцен лучше использовать ControlNet или составную композицию.

Regional Prompting тормозит генерацию? Минимально. Добавляет 5–15% к времени, потому что cross-attention считается несколько раз с разными промптами. На современных видеокартах разница незаметна.

Можно ли менять регионы во время sampling'а? В большинстве реализаций — нет, маски фиксированы на весь процесс. Есть экспериментальные ноды с динамическими масками, но они нестабильны.

Что делать если на стыке регионов «шов»? Увеличить feather (мягкость границы) до 20–40 пикселей. Или добавить общий базовый промпт со стилем — он сглаживает разнобой между регионами.

Главное

Regional Prompting — это способ дать модели не один промпт на всё изображение, а несколько на разные области. Решает главную беду многоперсонажных и составных сцен: атрибуты больше не «прыгают» между объектами. В AUTOMATIC1111 — расширение Regional Prompter с синтаксисом ADDCOL/ADDROW. В ComfyUI — ноды Attention Couple и Conditioning Set Mask. Хорошо работает в паре с ControlNet (геометрия + семантика). Главное правило: 2–6 регионов плюс базовый промпт для стиля — этого хватает на 90% задач.