Большой разбор

Stable Diffusion: полный гид по генерации картинок и видео в 2026

Stable Diffusion — это открытая нейросеть, которая превращает текст в картинки. С 2022 года она стала стандартом индустрии: на ней работают ComfyUI, AUTOMATIC1111, Forge, и тысячи внешних сервисов. В отличие от Midjourney и DALL-E, SD можно запустить локально, настроить под себя и расширить через LoRA, ControlNet, IP-Adapter. Разбираем, как устроена диффузия, какие модели стоит знать, и где это всё работает в 2026.

Чтение
32 мин
Уровень
Средний
Обновлено
18.05.26

Сцена первая: первая картинка из шума

22 августа 2022 года, ровно в 18:00 по тихоокеанскому времени, компания Stability AI публикует на GitHub веса первой версии Stable Diffusion. Параллельно — научная статья. Параллельно — пост в блоге. Параллельно — простая веб-демка.

Через три часа модель скачали 50 000 раз. Через неделю — миллион. Через две недели — на Reddit появляется первый сервис, где можно бесплатно генерить картинки в любом стиле, без регистрации. Через три недели — выходят первые LoRA-дообучения. Через два месяца — взрыв сообщества: фотографы переключаются на «AI-художников», концепт-дизайнеры в кино начинают использовать SD для предвизуализаций, тысячи людей в Discord-серверах учатся писать промпты к роботу.

В декабре 2022 за рубежом начинается публичная истерика. Художники бьют тревогу: «нас заменят». Юристы готовят иски: «нарушение копирайта». СМИ кричат: «AI победил искусство». Параллельно с этим — обычные люди в России, в Германии, в Бразилии скачивают веса, ставят AUTOMATIC1111 или ComfyUI на свои игровые компьютеры и генерят первые картинки.

К 2026 году Stable Diffusion прошла путь от шумного эксперимента до рабочего инструмента. На ней зарабатывают концепт-дизайнеры, моушн-дизайнеры, архитекторы для предвизов, художники-иллюстраторы, фотографы для замены фона, маркетологи для контента. В русскоязычной сцене активны тысячи людей, в мире — миллионы.

Этот разбор — про то, как Stable Diffusion устроена, чем отличаются её версии, какие у неё параметры, какие инструменты для работы существуют, и куда копать, если хочется не просто «сгенерить картинку из текста», а управлять процессом профессионально.

Stable Diffusion — диффузионная нейросеть, превращающая шум в осмысленное изображение
Stable Diffusion — это медленное проявление картинки из шума. За тысячу шагов случайная цифровая каша превращается в осмысленное изображение.

Что такое Stable Diffusion

Если убрать всё лишнее: Stable Diffusion — это нейросеть, обученная превращать текст в изображения.

«Stable» — стабильная, означает, что модель относительно дешёвая по вычислениям и предсказуемая. «Diffusion» — потому что в основе лежит диффузионный процесс — это специальный математический трюк, которому посвящён следующий раздел.

В отличие от закрытых Midjourney и DALL-E, у Stable Diffusion веса опубликованы. Это значит: любой человек может скачать файл (несколько гигабайт), запустить локально на своём компьютере (нужен мощный GPU), модифицировать, дообучить, встроить в продукт. Это open-source революция, которая запустила в 2022 году целое сообщество.

Откуда взялась

История Stable Diffusion начинается не со Stability AI, а с исследовательской группы CompVis в Мюнхенском университете. В 2021 году они опубликовали статью про Latent Diffusion Models — революционную идею: проводить диффузию не в пиксельном пространстве (где миллион размерностей на одну картинку 1024×1024), а в сжатом латентном пространстве (всего несколько тысяч размерностей).

Stability AI — стартап миллиардера Эмада Мостака — взяла эту научную работу, добавила ресурсы для обучения большой модели, договорилась с авторами и в августе 2022 опубликовала результат. Это была Stable Diffusion 1.4, чуть позже — 1.5 (которая стала легендарной).

С тех пор семейство расширялось:

  • 2022: SD 1.4 → 1.5
  • 2023: SDXL (улучшенная архитектура для больших разрешений)
  • 2024: SD 3 (новая архитектура), SD 3.5
  • 2024: FLUX.1 от Black Forest Labs (команда выходцев из Stability)
  • 2025-2026: FLUX.2, новые fine-tunes, видеомодели на той же базе

К 2026 году flagship в категории «открытые модели картинок» — это FLUX. Stable Diffusion 1.5 — всё ещё используется (старая, но с гигантской экосистемой LoRA и инструментов). SDXL — рабочая лошадка для большинства задач. SD 3.5 — улучшение над предыдущим, но не дотягивает до FLUX.

Чем отличается от Midjourney и DALL-E

Главное практическое различие — открытость vs закрытость.

Midjourney (закрытая): запускается на их серверах, работает через Discord или их веб-интерфейс. Качество — премиальное, особенно для художественной графики и иллюстрации. Платить $10-60/мес. Ограничений в стиле меньше, чем у DALL-E. Но вы не можете запустить локально, модифицировать, дообучить.

DALL-E (закрытая, OpenAI): встроена в ChatGPT. Качество хорошее, особенно для фотореализма. Запускается в облаке OpenAI. Жёсткая цензура — много запрещённых тем (даже совершенно безобидные часто отказывает). Невозможно локальное использование.

Stable Diffusion / FLUX (открытые): запускаются у вас на железе. Качество в FLUX уже сопоставимо с Midjourney на многих задачах. Полный контроль: можно генерить что угодно, дообучить под свой стиль, встроить в свой продукт, использовать без подключения к интернету. Минус: нужен мощный GPU и техническое умение.

В 2026 году выбор зависит от задачи:

  • Хотите быстро и красиво без возни → Midjourney.
  • Нужен фотореализм для презентацийDALL-E 3 в ChatGPT.
  • Нужен серьёзный контроль и кастомизация → Stable Diffusion + ComfyUI.
  • Нужно встроить в свой продукт → SD/FLUX через API провайдеров (Replicate, fal.ai, RunPod).

Как работает диффузия

Самая необычная часть Stable Diffusion — то, как именно она «превращает текст в картинку». Без формул, на пальцах.

Идея «обратной зашумления»

Возьмите чёткое фото кота. Добавьте чуть-чуть случайного шума. Получите слегка зашумлённую картинку. Добавьте ещё. Ещё. И ещё, тысячу раз. В какой-то момент остаётся только шум — никакого кота, чистая цифровая каша.

Это forward process — прямой диффузионный процесс. Он простой: на каждом шаге добавляется немного гауссова шума.

А теперь — главный фокус. Что если обучить нейросеть обратному процессу? Дать ей зашумлённую картинку и попросить предсказать, как она выглядела на один шаг назад, до этой порции шума.

Это и есть reverse process — обратная диффузия. Нейросеть учится «вычитать шум» — шаг за шагом, тысячу шагов, начиная с чистого шума и заканчивая чёткой картинкой.

При генерации нового изображения:

  1. Стартуем с чистого шума — случайного, как телеэкран без сигнала.
  2. Подаём модели этот шум + текст промпта (через CLIP, который понимает текст и сопоставляет с визуальными концепциями).
  3. Модель предсказывает: «если бы это была зашумлённая картинка кота, как она выглядела бы на один шаг чище?»
  4. Применяем результат: чуть менее шумная картинка.
  5. Повторяем 20-50 раз. На каждой итерации шум уменьшается, проявляется содержание.
  6. В конце — чёткое изображение.

Звучит абсурдно. Работает офигенно. Это та же логика, что у VAE и других генеративных моделей, но с гораздо более стабильной математикой.

Латентное пространство — главный фокус Stable Diffusion

Чистая диффузия в пиксельном пространстве была бы дико медленной. Картинка 1024×1024 имеет 3 миллиона пикселей (с тремя каналами цвета). Делать тысячу шагов с 3-миллионным вектором — это нужны кластеры серверов.

Хитрость: перед диффузией картинку сжимают через специальную нейросеть — Variational Autoencoder (VAE). Она преобразует 1024×1024×3 в, например, 128×128×4 — это 65 000 чисел вместо 3 миллионов. В 46 раз меньше.

Этот сжатый формат называется latent — латентное представление. Сжатие не идеальное (теряются мелкие детали), но достаточное, чтобы вся семантика сохранилась.

Диффузия проводится в латентном пространстве. Это в десятки раз быстрее. После того как модель сгенерировала латент — VAE декодирует его обратно в обычную картинку 1024×1024.

Поэтому полное название архитектуры — Latent Diffusion Model. И поэтому Stable Diffusion может работать на одной игровой видеокарте, а не на дата-центре.

Роль текста и CLIP

Чтобы превратить текст в визуальное руководство, используется CLIP (Contrastive Language-Image Pre-training) — нейросеть от OpenAI, которая обучена сопоставлять картинки и тексты в одном семантическом пространстве.

Когда вы пишете промпт «кот на крыше под дождём», CLIP превращает его в embedding — вектор чисел длиной 768 или 1024. Этот вектор подаётся в диффузионную модель как условие (condition). Модель учится: «вот зашумлённая картинка + вот embedding кота на крыше → предскажи следующий шаг чистой картинки с котом на крыше».

CLIP — это связующее звено между текстом и визуалом. Без него Stable Diffusion не понимала бы промптов вообще.

Семейство моделей

К 2026 году в open-source-сцене несколько ключевых базовых моделей. Понимать их — значит понимать, какие у вас на вход доступны инструменты.

SD 1.5 — легенда из 2022

Вес файла: 4 ГБ. Разрешение: 512×512 нативно (можно растягивать через ухищрения). VRAM: 4 ГБ хватит для базовой генерации.

Самая популярная модель в истории open-source AI-art. На ней основан гигантский экосистема:

  • Тысячи fine-tunes под разные стили (Realistic Vision, Deliberate, DreamShaper, ePiCRealism)
  • Десятки тысяч LoRA под персонажей, стили, концепции
  • Сотни Textual Inversion (старая техника, аналог LoRA)
  • Большинство ControlNet тренированы изначально на SD 1.5

Когда использовать: если ваша задача — конкретный стиль, для которого есть готовая модель, и вы не хотите тратить много VRAM. Скорость генерации — секунды на средней видеокарте.

Минусы: 512×512 — это мало. Анатомия плохая (руки, ноги, лица — поплывут). Текст в картинках не получается. Архитектура устарела.

SDXL — рабочая лошадка 2023-2024

Вес файла: 6-7 ГБ. Разрешение: 1024×1024 нативно. VRAM: 8-12 ГБ для удобной работы.

Большой скачок над SD 1.5. Лучшее качество, нормальный размер из коробки, гораздо лучше анатомия. Архитектура двухступенчатая: базовая модель + опциональный refiner для доводки деталей.

Стандарт для серьёзных пайплайнов 2023-2024 года. Огромная экосистема LoRA, ControlNet, IP-Adapter специально под SDXL.

Когда использовать: баланс качества и скорости. До сих пор используется в 50% продакшен-пайплайнов в мире AI-art.

Минусы: медленнее SD 1.5 в 2-3 раза. С текстом в картинках по-прежнему слабо. Освещение и сложные сцены — не топ.

FLUX.1 / FLUX.2 — фронтир 2024-2026

Вес файла: 12-24 ГБ. Разрешение: 1024×1024 и выше. VRAM: 16-24 ГБ для комфортной работы.

В августе 2024 года команда Black Forest Labs (выходцы из Stability AI) опубликовала FLUX.1 — модель, которая на ряде задач сопоставима с Midjourney и часто обходит SDXL и SD 3.

Архитектура — улучшенный трансформер с MMDIT (мультимодальный диффузионный трансформер). 12 миллиардов параметров против 2-3 миллиардов у предшественников. Качество текста в изображениях — резкий скачок (можно генерить читаемые надписи). Композиция — почти как у Midjourney.

Версии:

  • FLUX.1 Pro — закрытая, только через API. Топовое качество.
  • FLUX.1 Dev — открытая, для некоммерческого использования. Близка по качеству к Pro.
  • FLUX.1 Schnell — открытая, ускоренная (генерит за 4 шага вместо 20-30). Качество чуть ниже.

К 2026 году вышла FLUX.2 с ещё лучшей композицией и пониманием промптов.

Когда использовать: топовое качество, тексты на картинках, сложные композиции, фотореализм.

Минусы: тяжёлая. Нужно 16-24 ГБ VRAM. Экосистема LoRA и ControlNet меньше, чем у SDXL, но быстро растёт.

SD 3.5 — обновлённая Stability

Stability AI после ухода Мостака пыталась вернуться в игру. SD 3 (вышла в 2024) — с новой архитектурой MMDIT, но первые версии были сильно слабее FLUX. SD 3.5 (конец 2024) — улучшенная версия.

Качество: между SDXL и FLUX. Лицензия: немного спорная (требует коммерческой лицензии в некоторых случаях). VRAM: 12-16 ГБ.

Когда использовать: если хотите альтернативу FLUX по более низким требованиям к железу.

Видеомодели

Параллельно с картинками развиваются видеомодели на той же базе:

  • AnimateDiff — расширение к SD 1.5/SDXL для коротких анимаций (2-4 секунды)
  • CogVideoX — открытая модель для генерации видео
  • Hunyuan Video — китайский фронтир, открытый
  • Wan 2.1 — мощная видеомодель 2025 года
  • LTX-Video — быстрая видеомодель

И закрытые сервисы — Runway, Kling, Pika, Sora (когда были живы) — они используют свои закрытые модели, но архитектурно очень похожи на open-source.

Эволюция Stable Diffusion — от SD 1.5 через SDXL и SD 3.5 к FLUX
Четыре поколения открытых моделей за четыре года. SD 1.5 — легенда с гигантской экосистемой, SDXL — рабочая лошадка, FLUX — фронтир качества 2026.

Параметры генерации

В отличие от Midjourney (где минимум настроек), Stable Diffusion даёт полный контроль. Понимать параметры — половина мастерства.

Параметры генерации в Stable Diffusion — steps, CFG, sampler, scheduler, seed
За простым полем «промпт» у Stable Diffusion живёт целый пульт настроек. Каждый параметр меняет генерацию в свою сторону — и каждый стоит понять.

Steps — количество шагов

Steps (шаги) — сколько итераций модель пройдёт от шума к чёткой картинке.

  • Меньше шагов = быстрее, но качество ниже (контуры размытые, детали несформированные).
  • Больше шагов = медленнее, лучше детали.

Типичные значения: 20-30 шагов для SDXL, 20-40 для SD 1.5, 20-30 для FLUX Dev. У FLUX Schnell хватает 4 шагов.

Больше 50 шагов почти никогда не даёт значимого улучшения — закон уменьшающейся отдачи.

CFG Scale — сила следования промпту

CFG (Classifier-Free Guidance) — насколько строго модель следует промпту.

  • CFG 1 = почти игнорирует промпт, генерит случайно.
  • CFG 7-8 = стандарт. Баланс точности и креативности.
  • CFG 15-20 = модель будет «насильно» вписывать всё из промпта, часто с артефактами.

Для SDXL и SD 1.5 — оптимально 6-8. Для FLUX — особенность: использует guidance немного по-другому, оптимальное значение 3-4 (низкое).

Sampler и Scheduler

Sampler — алгоритм, который вычитает шум на каждом шаге. Их много: Euler, DPM++, DPM++ 2M Karras, UniPC, DDIM, LMS.

Scheduler — расписание, по которому распределяются «дозы» шума по шагам (Karras, Exponential, Normal, и т.д.).

Самые универсальные комбинации:

  • DPM++ 2M Karras — топ для SDXL и FLUX
  • Euler a (Euler ancestral) — для творческих задач (даёт более вариативные результаты)
  • DDIM — для воспроизводимости с одного seed
  • UniPC — быстрый и качественный

В 90% случаев первая опция — лучшая. Углубляться стоит, только если хотите экспериментировать с конкретными стилями.

Seed — стартовый шум

Seed — число, которое определяет, какой именно случайный шум будет на старте. Тот же seed + тот же промпт + те же параметры = тот же результат. Каждый раз. Это критично для:

  • Воспроизводимости (поделиться результатом так, чтобы другой человек повторил)
  • Итеративной работы (зафиксировал seed, меняешь только промпт)
  • Сравнения параметров (с тем же seed разница между сэмплерами видна чище)

В UIs обычно есть кнопка «случайный seed» (-1) и «зафиксировать предыдущий».

Negative Prompt

Negative Prompt — что не должно быть на картинке.

«Плохие руки, лишние пальцы, кривое лицо, низкое качество, размытость» — типичный negative prompt для портретов.

В SD 1.5 и SDXL negative prompt — мощный инструмент. В FLUX — почти не работает (по архитектурным причинам, там CFG-механика другая).

Aspect Ratio и Resolution

Aspect Ratioсоотношение сторон. Модели обучены на определённых разрешениях:

  • SD 1.5: 512×512, 512×768, 768×512
  • SDXL: 1024×1024, 1024×1536, 1536×1024 (и другие комбинации)
  • FLUX: 1024×1024, 1024×1792, 1792×1024

Использование разрешений, не предусмотренных при обучении, приводит к деформациям анатомии (две головы, четыре глаза). Лучше следовать «родным» AR модели.

Denoising Strength (для img2img)

Denoising Strength — насколько сильно модель будет менять входное изображение в img2img режиме.

  • 0 = без изменений (модель не работает).
  • 0.3-0.5 = тонкая корректировка (стилизация, лёгкая правка).
  • 0.6-0.8 = значительная переработка с сохранением композиции.
  • 1.0 = полная перегенерация (входная картинка игнорируется).

Инструменты — где запускать

Базовая модель — это файл с весами (.safetensors или .ckpt). Чтобы с ним работать, нужен интерфейс.

ComfyUI — нодовый редактор для серьёзных

ComfyUI — главный инструмент серьёзной работы с SD в 2026. Это нодовый редактор, где вы соединяете блоки в граф: «загрузить модель» → «токенизировать промпт» → «KSampler» → «декодировать VAE» → «сохранить картинку».

Плюсы:

  • Полный контроль: видно каждый этап генерации.
  • Воспроизводимость: весь pipeline сохраняется как JSON.
  • Расширяемость: тысячи Custom Nodes под любую задачу.
  • Эффективность: использует VRAM экономнее, чем альтернативы.
  • Стандарт индустрии: вакансии «AI artist», «AI video specialist» практически все требуют ComfyUI.

Минусы:

  • Сложнее на старте. Требует понимания, что делают блоки.
  • UI выглядит как программа для электроинженеров — отпугивает новичков.

Менеджмент: ComfyUI Manager — расширение, через которое одной кнопкой ставятся новые ноды, модели, обновления.

Workflow можно сохранить как JSON и отправить коллеге — он откроет в своём ComfyUI ровно тот же pipeline.

AUTOMATIC1111 / Forge — UI с вкладками

AUTOMATIC1111 — старая школа. Веб-интерфейс с вкладками: txt2img, img2img, inpaint, extensions. Был стандартом 2022-2024.

Forge — оптимизированный форк A1111, работает быстрее на тех же ресурсах.

Плюсы:

  • Понятный UI с первого взгляда: поле для промпта, кнопка Generate.
  • Огромное количество расширений (Dynamic Prompts, Wildcards, Regional Prompter).
  • Простой старт для новичков.

Минусы:

  • Архитектурно устаревает. Поддержка FLUX и новых моделей — через костыли.
  • Не такая гибкость в пайплайнах, как у ComfyUI.

К 2026 году большинство профи перешли на ComfyUI. A1111/Forge — для тех, кто только начинает или работает с простыми задачами.

Fooocus — для абсолютных новичков

Fooocus — UI, который скрывает 90% параметров и даёт результат как у Midjourney с одного промпта. Использует SDXL внутри.

Плюсы: простота. Установил, запустил, написал промпт — получил красивую картинку. Минусы: мало контроля. Если хотите кастомизацию — переходите на ComfyUI.

Облачные сервисы

Если у вас нет мощного GPU локально:

  • fal.ai, Replicate, RunPod, ModalAPI-провайдеры. Платите за время. Можно запускать любую открытую модель.
  • Civitai Generator — встроенный сервис на сайте моделей. Удобно для тестов.
  • TensorArt, SeaArt, Leonardo — веб-сервисы с подпиской. Уровень контроля выше Midjourney, но ниже локального ComfyUI.

Локальное железо

Если хотите серьёзно работать локально — нужна видеокарта Nvidia с минимум 12 ГБ VRAM. Оптимально:

  • RTX 4090 (24 GB) — топ для соло-художника
  • RTX 4080 (16 GB) — хороший баланс
  • RTX 3090 (24 GB) — старая, но всё ещё актуальна (особенно по цене)
  • RTX 4060 Ti 16GB — бюджетный вариант для SDXL
  • AMD Radeon — работает, но медленнее и с меньшей поддержкой инструментов

На Mac (через Apple Silicon) тоже работает, но в 5-10 раз медленнее. Linux/Windows на NVIDIA — стандарт.

Управление: LoRA, ControlNet, IP-Adapter

Голый Stable Diffusion даёт «средний» результат — то, чему модель училась в общем. Чтобы сделать что-то специфическое — стиль, персонажа, композицию, нужны управляющие модули.

LoRA — стиль и персонаж за выходные

LoRA (Low-Rank Adaptation) — техника лёгкого дообучения модели. Вы берёте базовую SD/SDXL/FLUX и обучаете на 20-200 картинках в нужном стиле. На выходе — маленький файл (50-300 МБ), который подключается к базовой модели и сдвигает её в нужную сторону.

Что бывает:

  • LoRA на стиль (винтаж, аниме, акварель, киберпанк)
  • LoRA на персонажа (узнаваемый герой)
  • LoRA на концепцию (определённая поза, определённый тип съёмки)
  • LoRA на объект (продукт бренда, локацию)

Обучается на одной RTX 4090 за 2-8 часов. Стоит ~$1-5 на облачном GPU.

Civitai (civitai.com) — главная площадка LoRA. Сотни тысяч готовых, по всем категориям.

Сила LoRA контролируется через множитель <lora:my_style:0.7> — 0.7 значит «применить на 70%». При 1.0 — полная сила, при 0.3 — едва заметно.

Несколько LoRA можно стекировать, но осторожно — конфликты дают артефакты.

ControlNet — управление композицией

ControlNet — extension, который позволяет управлять композицией через дополнительное изображение-референс.

Виды:

  • OpenPose — задать позу персонажа через scaleboard-человечка
  • Depth Map — задать глубину сцены (где близко, где далеко)
  • Canny Edge — задать контуры всей композиции
  • Segmentation Map — задать «здесь будет небо, здесь дом, здесь поле»
  • Lineart — задать чёрно-белые контуры (для иллюстрации)
  • Scribble — нарисовать черновик, модель допишет
  • Tile — апскейлинг + детализация
  • InstructP2P — текстовые инструкции типа «измени в стиле акварель»

ControlNet превращает SD из «придумай картинку» в «нарисуй конкретное по моему скетчу». Без ControlNet профессиональная работа невозможна — слишком случайные результаты.

IP-Adapter — референс по картинке

IP-Adapter — extension, похожий на ControlNet, но управляет стилем и содержимым через референсную картинку.

Сценарий: «нарисуй портрет в стиле этого старого фото» — даёте картинку как референс, IP-Adapter переносит стиль/цвет/композицию.

Особенно мощно работает связка IP-Adapter Face — переносить лицо с фото в генерацию. С его помощью можно делать узнаваемые портреты без обучения LoRA на персонаже.

Regional Prompting

Regional Prompting — приём, при котором разные части картинки получают разные промпты. Левая половина — пейзаж, правая — портрет. Верхняя четверть — небо, остальное — город.

Делается через специальные расширения (Regional Prompter в A1111, нативные ноды в ComfyUI).

Полезно для сложных композиций, где простой текст не справляется.

Embeddings и Textual Inversion

Textual Inversion — старая техника (предшественник LoRA). Маленький файл (20-100 КБ), которым модели прививают «новое слово» для концепции. Работает, но LoRA в большинстве случаев лучше.

Hypernetwork — ещё одна старая техника. К 2026 почти не используется, кроме legacy-пайплайнов.

ControlNet режимы — OpenPose, Depth, Canny, Segmentation — управление композицией
ControlNet превращает SD из «придумай картинку» в «нарисуй конкретное по моему скетчу». Поза, глубина, контуры, сегментация — каждый режим закрывает свой сценарий.

Img2img, Inpainting, Outpainting

Stable Diffusion работает не только в режиме «текст → картинка», но и в картинка → картинка через несколько техник.

Img2img — переделать существующее

Img2img — даёте модели исходную картинку и промпт. Она перерисовывает её в нужном направлении.

Параметр Denoising Strength контролирует, насколько сильно модель меняет вход. 0.3 — едва заметная стилизация, 0.7 — полная переработка с сохранением контуров, 0.95 — почти как генерация с нуля.

Применения:

  • Стилизация фото
  • Доработка плохой генерации
  • Перенос концепции через несколько итераций (текст → черновик → детализация → финал)

Inpainting — перерисовать кусок

Inpainting — выделяете маской область картинки и перерисовываете только её, оставляя остальное.

Применения:

  • Заменить лицо
  • Убрать объект (например, столб на фото)
  • Добавить деталь («теперь у этой женщины серьги»)
  • Исправить руки/анатомию

Для inpainting нужна специальная inpaint-модель (или используется обычная с режимом маски). Качество зависит от маски — чем точнее обведено, тем чище результат.

Outpainting — расширить границы

Outpainting — продолжить картинку за её исходные границы.

Применения:

  • Превратить 1:1 в 16:9 (для постера или баннера)
  • Расширить кадр для широкоэкранного видео
  • Добавить фон вокруг центрального объекта

Outpainting технически — это inpainting на «пустых» областях за пределами оригинала. Работает хуже, чем inpainting в центре, но в современных моделях (FLUX особенно) — уже на хорошем уровне.

Upscaling и доводка

Большая часть финальной работы — это апскейлинг и детализация.

Upscaler — увеличивает размер картинки (1024 → 2048, 4096, 8192). Используют:

  • ESRGAN и его варианты (RealESRGAN, 4x-UltraSharp) — лёгкие, быстрые
  • Tile-based upscaling — большую картинку разбивают на тайлы и каждый прогоняют через SD (tile diffusion)
  • Topaz Gigapixel — отдельный коммерческий продукт топового качества
  • SUPIR — фронтирный апскейлер с пониманием контента

Face Restoration — отдельная нейросеть для восстановления лиц (CodeFormer, GFPGAN). Полезно, когда лицо в генерации деформировано или нечёткое.

От картинки к видео

В 2024-2026 диффузия научилась двигаться во времени.

AnimateDiff — короткие анимации на базе SD

AnimateDiff — расширение к SD 1.5/SDXL, которое добавляет временное измерение. Модель учится не просто генерить кадр, а последовательность кадров с сохранением идентичности.

Что бывает:

Качество — нормальное для коротких клипов, GIF-ок, лоопов. Не для серьёзного видео.

Hunyuan Video — китайский фронтир

Hunyuan Video (от Tencent) — открытая видеомодель 2024 года. 5-10 секунд видео в 720p. Качество сопоставимо с Runway и бьёт большинство закрытых на ряде задач. Веса опубликованы (но тяжёлые — 13 GB+).

Wan 2.1 — мощный open-source

Wan 2.1 — другая китайская open-source видеомодель. Конкурент Hunyuan. Хороша в реалистичных сценах.

LTX-Video — быстрая

LTX-Video — оптимизированная для скорости. Можно генерить видео почти в реальном времени на топовом GPU.

Закрытые сервисы — Runway, Kling, Pika, Veo

Runway, Kling, Pika — топовые закрытые сервисы для AI-видео в 2024-2026. Каждый со своими сильными сторонами:

  • Runway — хороший по контролю (раскадровки, image-to-video)
  • Kling (китайский) — лидер по реализму и длине (до 2 минут)
  • Pika — упрощённый UI, быстрая итерация
  • Google Veo 2 — мощный, но доступ ограничен

Все закрытые. Платные ($10-95/мес). В видеопроде 2026 года используются параллельно с open-source.

text-to-video vs image-to-video

Text-to-Video — генерация видео из текстового промпта. Сложнее всего.

Image-to-Video — оживление статической картинки. Проще, потому что начальный кадр задан. Качество обычно лучше.

На практике 90% профессиональной работы с видео-моделями — это image-to-video: сначала генерируется идеальный первый кадр через FLUX или Midjourney, потом он анимируется через Runway или Kling.

С чем не путать

Stable DiffusionMidjourney. SD — открытая, локальная, контролируемая, требует возни. Midjourney — закрытая, облачная, простая, дороже на больших объёмах.

Stable Diffusion ≠ DALL-E. DALL-E — продукт OpenAI, встроен в ChatGPT, закрытый. SD — независимая open-source модель.

SD 1.5 ≠ SDXL ≠ FLUX. Это разные модели разных поколений. Несовместимые LoRA и ControlNet (то, что обучено для SD 1.5, не работает для FLUX). Когда вы качаете LoRA — внимательно читайте, для какой модели обучена.

Stable Diffusion ≠ Stability AI. SD — название модели. Stability AI — название компании, которая её опубликовала. С 2024 года Stability в кризисе, многие сотрудники ушли. Новые мощные модели идут от Black Forest Labs (FLUX), а не от Stability.

ComfyUI ≠ Stable Diffusion. ComfyUI — это интерфейс. SD — это модель. ComfyUI работает не только с SD: можно подключить FLUX, видеомодели, аудио-модели, всё что угодно.

Latent ≠ Pixel. Картинка в latent space — это не то, что видит глаз. Это сжатое представление, понятное только VAE. Чтобы увидеть финальную картинку — нужно декодировать через VAE.

Inpainting model ≠ обычная модель. Для качественного inpaint нужна специальная inpaint-версия модели (или техника latent inpaint в ComfyUI). Обычная модель в режиме маски иногда даёт швы и артефакты.

Частые ошибки и заблуждения

«Stable Diffusion умрёт, потому что есть Midjourney». Не умрёт. Open-source даёт то, что закрытое не может: полный контроль, локальность, кастомизацию. Профессиональные пайплайны почти всегда используют SD/FLUX в комбинации.

«Хорошие картинки — это секретный промпт». Нет. Хорошие картинки — это процесс: правильная модель + LoRA + ControlNet + параметры + детализация. Магических промптов не существует. В FLUX/SDXL хороший промпт + хорошая модель = 80% результата, остальное — техника.

«Чем длиннее промпт — тем лучше». Не всегда. Для SD 1.5 — длинные промпты часто помогают. Для FLUX и SD 3 — короткие, естественно-языковые промпты работают лучше. «An old wooden cabin in misty forest at dawn, soft light, fog» работает в FLUX лучше, чем «8k, ultradetailed, masterpiece, best quality, octane render, professional photography, perfect lighting, depth of field, hyperrealistic».

«Стабильная диффузия = SD 1.5». В 2026 это уже устарело. SDXL и FLUX — современные стандарты. Используйте их.

«Не надо учить параметры — пиши промпт и крути». Можно. Но качество на голову выше у тех, кто понимает, что они крутят. Поняли разницу между sampler и scheduler — генерация стала контролируемой.

«Negative prompt всегда нужен». В SD 1.5/SDXL — да. В FLUX — почти не работает.

«LoRA добавляет к модели — больше всегда лучше». Не лучше. Стек из 5 LoRA с силой 1.0 обычно даёт хаос. Лучше 1-2 LoRA с силой 0.6-0.8. Тестируйте.

«Generated through AI не считается искусством». Это философский спор. Юридически в США в 2026 — generated через AI не имеет копирайта автоматически. В России — ситуация спорная, законодательство догоняет. Тем не менее коммерческое использование AI-картинок в дизайне, рекламе, видеопроде — массово.

«AI заменит художников». Нет. Изменит — да. Концепт-художники, иллюстраторы, дизайнеры используют SD как ускоритель, не как замену. Финальную композицию, эмоцию, идею — всё это даёт человек. Но рутину (множество вариантов, апскейлинг, ретушь) — берёт AI.

Карта дальше — куда копать

Если вы только начинаете:

Архитектура:

Семейство моделей:

  • SDXL — рабочая лошадка
  • FLUX — фронтир 2024-2026
  • Refiner — доводка деталей

Управление:

Режимы работы:

  • Img2img — переделать существующую
  • Inpainting — перерисовать кусок
  • Outpainting — расширить границы
  • Upscaler — увеличить размер
  • Face Restoration — восстановить лицо

Параметры:

Альтернативные модели:

Видео:

Дообучение:

Технические нюансы:

Большие разборы:

Или полный каталог 146 терминов — копайте по любым веткам.

Частые вопросы

Что нужно для запуска SD локально?

  • Видеокарта Nvidia с минимум 8 ГБ VRAM (для SD 1.5) или 12-16 ГБ (для SDXL и FLUX).
  • 16-32 ГБ оперативной памяти.
  • 50-200 ГБ места на диске (модели тяжёлые).
  • Windows, Linux или Mac (но Mac в 5-10 раз медленнее).
  • ComfyUI или AUTOMATIC1111 для UI.

Что лучше для начинающих — ComfyUI или A1111? Спорный вопрос. A1111/Forge проще на старте (одна страница, понятно). ComfyUI мощнее, но сложнее. Общий совет: если работа предполагается серьёзная — лучше сразу ComfyUI, потеряете неделю на изучение, но сэкономите годы потом. Если хотите быстро посмотреть, как оно вообще работает — A1111.

Где брать модели?

  • Civitai — главная база (модели, LoRA, embeddings). Десятки тысяч позиций.
  • Hugging Face — научный/корпоративный хаб (FLUX, базовые модели, fine-tunes).
  • TensorArt, SeaArt — альтернативы с фокусом на готовые модели.

Что лучше — FLUX или SDXL? По качеству — FLUX. По требованиям к железу — SDXL легче. По экосистеме LoRA/ControlNet — у SDXL пока больше (но FLUX быстро догоняет). Для топового качества и текстов на картинках — FLUX. Для массовой работы со множеством стилей — SDXL.

Можно ли коммерчески использовать AI-картинки? Зависит от модели и юрисдикции:

  • SD 1.5, SDXL, FLUX Schnell — CreativeML Open RAIL-M, разрешено коммерческое использование.
  • FLUX Dev — некоммерческая лицензия, нельзя для бизнеса.
  • FLUX Pro — только через API, коммерческая разрешена.
  • Midjourney, DALL-E — разрешено с подпиской.

В США автор AI-картинки не имеет копирайта (USCO 2023). В России и ЕС ситуация спорная. На свой риск.

Сколько времени уходит на генерацию?

  • SD 1.5 на RTX 4090: 1-3 секунды на картинку.
  • SDXL на RTX 4090: 5-15 секунд.
  • FLUX Dev на RTX 4090: 15-30 секунд.
  • На RTX 3060: всё в 3-5 раз медленнее.

Как сделать стиль конкретного фотографа/художника?

  1. Найти готовую LoRA на Civitai.
  2. Если нет — обучить свою на 30-100 примерах работы автора. Используйте Kohya GUI или ComfyUI training nodes.
  3. Альтернатива: использовать IP-Adapter с референсными изображениями.

Что такое CFG > 10? «Кранчевый» режим — модель принудительно вписывает всё из промпта. Часто приводит к перенасыщенным цветам, артефактам. Используйте CFG 6-8 в большинстве случаев.

Почему руки получаются плохими?

  • В SD 1.5 — потому что в обучающих данных мало детальных рук.
  • В SDXL — лучше, но всё ещё не идеально.
  • В FLUX — почти идеальные руки из коробки.
  • Решения: hand inpaint, отдельная LoRA на руки, ControlNet OpenPose с прорисовкой рук.

Что такое hi-res fix? Hi-res fix — приём: сначала генерим в низком разрешении (520×520), потом апскейлим и снова прогоняем через SD в режиме img2img с низким denoising. Получаем большую картинку без артефактов «двойных голов», которые случаются при прямой генерации большого размера в SD 1.5.

Можно ли заработать на Stable Diffusion? Можно. Многие зарабатывают:

  • Концепт-арт для игр и кино (через прямые контракты или платформы вроде ArtStation).
  • Иллюстрации для блогов, обложек, презентаций.
  • Шаблоны и LoRA на продажу через Civitai (продаются за copy-cents до $50).
  • Курсы и обучение работе с AI-art.
  • Услуги по AI-визуализации для архитекторов, дизайнеров одежды, маркетологов.

Реальные доходы — от $500 до $20000 в месяц, в зависимости от уровня, аудитории, ниши.

Какой стек выбрать в 2026 для серьёзной работы?

  1. GPU: RTX 4090 или хотя бы 4080 (16+ ГБ VRAM)
  2. UI: ComfyUI + ComfyUI Manager
  3. Базовые модели: FLUX Dev (для качества), SDXL (для скорости и LoRA)
  4. Управление: ControlNet (Canny, OpenPose, Depth), IP-Adapter
  5. Апскейл: Topaz Gigapixel или SUPIR в ComfyUI
  6. Видео: Hunyuan + AnimateDiff локально + Runway/Kling для финальных кадров

Главное

Stable Diffusion — это революция open-source AI-art, которая в 2022 году превратила «генерировать картинки на компьютере» в массовую возможность. В 2026 году она — стандарт индустрии. На ней зарабатывают, ей учатся, её используют параллельно с закрытыми Midjourney и DALL-E.

Главные принципы запомнить:

  1. SD — это семейство моделей, а не одна. Знайте, какая под какую задачу: SD 1.5 (старая, экосистема), SDXL (баланс), FLUX (топ).
  2. Управление важнее промпта. LoRA, ControlNet, IP-Adapter — это то, что отличает «генерил случайно» от «делаю профессионально».
  3. ComfyUI — стандарт индустрии. Время на освоение окупается за месяц.
  4. Параметры — не магия. Steps, CFG, sampler, scheduler — потратьте час, поймёте раз и навсегда.
  5. Видео — следующий фронтир. AnimateDiff, Hunyuan, Wan — open-source догоняет Runway и Kling.

И помните: на первой неделе всё будет получаться так себе. На второй — стабильно средне. На третьей — заметно лучше. На месячном рубеже — у вас уже свой стек, свои предпочтения, свой стиль. Это как любой инструмент. Кисть художнику тоже не сразу даётся.

Если эта статья зацепила — копайте через словарь. Там 146 терминов, каждый — отдельная статья с примерами. Большинство тем, упомянутых здесь, раскрыты подробно в своих статьях.

И не забывайте: лучшее место для учёбы — это практика. Час генераций каждый вечер в течение месяца — и через месяц вы будете там, где большинство «теоретиков AI» не окажется никогда.

Карта дальше — термины из словаря

Если хотите идти глубже — вот все термины, упомянутые в этом гиде. Можно открыть в новой вкладке и читать параллельно.