Большой разбор

Stable Diffusion: полный гид по генерации картинок и видео в 2026

Stable Diffusion — это открытая нейросеть, которая превращает текст в картинки. С 2022 года она стала стандартом индустрии: на ней работают ComfyUI, AUTOMATIC1111, Forge, и тысячи внешних сервисов. В отличие от Midjourney и DALL-E, SD можно запустить локально, настроить под себя и расширить через LoRA, ControlNet, IP-Adapter. Разбираем, как устроена диффузия, какие модели стоит знать, и где это всё работает в 2026.

Автор: Александр Ежов
Чтение: 32 мин
Уровень: Средний
Обновлено: 18.05.26

Сцена первая: первая картинка из шума

22 августа 2022 года, ровно в 18:00 по тихоокеанскому времени, компания Stability AI публикует на GitHub веса первой версии Stable Diffusion. Параллельно — научная статья. Параллельно — пост в блоге. Параллельно — простая веб-демка.

Через три часа модель скачали 50 000 раз. Через неделю — миллион. Через две недели — на Reddit появляется первый сервис, где можно бесплатно генерить картинки в любом стиле, без регистрации. Через три недели — выходят первые LoRA-дообучения. Через два месяца — взрыв сообщества: фотографы переключаются на «AI-художников», концепт-дизайнеры в кино начинают использовать SD для предвизуализаций, тысячи людей в Discord-серверах учатся писать промпты к роботу.

В декабре 2022 за рубежом начинается публичная истерика. Художники бьют тревогу: «нас заменят». Юристы готовят иски: «нарушение копирайта». СМИ кричат: «AI победил искусство». Параллельно с этим — обычные люди в России, в Германии, в Бразилии скачивают веса, ставят AUTOMATIC1111 или ComfyUI на свои игровые компьютеры и генерят первые картинки.

К 2026 году Stable Diffusion прошла путь от шумного эксперимента до рабочего инструмента. На ней зарабатывают концепт-дизайнеры, моушн-дизайнеры, архитекторы для предвизов, художники-иллюстраторы, фотографы для замены фона, маркетологи для контента. В русскоязычной сцене активны тысячи людей, в мире — миллионы.

Этот разбор — про то, как Stable Diffusion устроена, чем отличаются её версии, какие у неё параметры, какие инструменты для работы существуют, и куда копать, если хочется не просто «сгенерить картинку из текста», а управлять процессом профессионально.

Stable Diffusion — диффузионная нейросеть, превращающая шум в осмысленное изображение — Stable Diffusion — это медленное проявление картинки из шума. За тысячу шагов случайная цифровая каша превращается в осмысленное изображение.

Важно

Главное. Stable Diffusion — это диффузионная модель, которая учится обращать процесс зашумления: ей показывают чёткое изображение, постепенно добавляют шум, и она учится предсказывать, как изображение выглядело шаг назад. На инференсе модель из чистого шума шаг за шагом восстанавливает картинку по текстовому промпту. Семейство SD к 2026: SD 1.5 (легендарная, но устаревает), SDXL (рабочая лошадка), FLUX.1 (новый фронтир качества), SD 3.5. Главные инструменты: ComfyUI (нодовый, для серьёзной работы) и AUTOMATIC1111/Forge (UI с вкладками, для начинающих). Управляется через LoRA (стили), ControlNet (позы и композиция), IP-Adapter (референсы). Расширяется в видео через AnimateDiff и аналоги. Работает локально на GPU с 8+ ГБ VRAM (4090 — оптимально).

Что такое Stable Diffusion

Если убрать всё лишнее: Stable Diffusion — это нейросеть, обученная превращать текст в изображения.

«Stable» — стабильная, означает, что модель относительно дешёвая по вычислениям и предсказуемая. «Diffusion» — потому что в основе лежит диффузионный процесс — это специальный математический трюк, которому посвящён следующий раздел.

В отличие от закрытых Midjourney и DALL-E, у Stable Diffusion веса опубликованы. Это значит: любой человек может скачать файл (несколько гигабайт), запустить локально на своём компьютере (нужен мощный GPU), модифицировать, дообучить, встроить в продукт. Это open-source революция, которая запустила в 2022 году целое сообщество.

Откуда взялась

История Stable Diffusion начинается не со Stability AI, а с исследовательской группы CompVis в Мюнхенском университете. В 2021 году они опубликовали статью про Latent Diffusion Models — революционную идею: проводить диффузию не в пиксельном пространстве (где миллион размерностей на одну картинку 1024×1024), а в сжатом латентном пространстве (всего несколько тысяч размерностей).

Stability AI — стартап миллиардера Эмада Мостака — взяла эту научную работу, добавила ресурсы для обучения большой модели, договорилась с авторами и в августе 2022 опубликовала результат. Это была Stable Diffusion 1.4, чуть позже — 1.5 (которая стала легендарной).

С тех пор семейство расширялось:

2022: SD 1.4 → 1.5
2023: SDXL (улучшенная архитектура для больших разрешений)
2024: SD 3 (новая архитектура), SD 3.5
2024: FLUX.1 от Black Forest Labs (команда выходцев из Stability)
2025-2026: FLUX.2, новые fine-tunes, видеомодели на той же базе

К 2026 году flagship в категории «открытые модели картинок» — это FLUX. Stable Diffusion 1.5 — всё ещё используется (старая, но с гигантской экосистемой LoRA и инструментов). SDXL — рабочая лошадка для большинства задач. SD 3.5 — улучшение над предыдущим, но не дотягивает до FLUX.

Чем отличается от Midjourney и DALL-E

Главное практическое различие — открытость vs закрытость.

Midjourney (закрытая): запускается на их серверах, работает через Discord или их веб-интерфейс. Качество — премиальное, особенно для художественной графики и иллюстрации. Платить $10-60/мес. Ограничений в стиле меньше, чем у DALL-E. Но вы не можете запустить локально, модифицировать, дообучить.

DALL-E (закрытая, OpenAI): встроена в ChatGPT. Качество хорошее, особенно для фотореализма. Запускается в облаке OpenAI. Жёсткая цензура — много запрещённых тем (даже совершенно безобидные часто отказывает). Невозможно локальное использование.

Stable Diffusion / FLUX (открытые): запускаются у вас на железе. Качество в FLUX уже сопоставимо с Midjourney на многих задачах. Полный контроль: можно генерить что угодно, дообучить под свой стиль, встроить в свой продукт, использовать без подключения к интернету. Минус: нужен мощный GPU и техническое умение.

В 2026 году выбор зависит от задачи:

Хотите быстро и красиво без возни → Midjourney.
Нужен фотореализм для презентаций → DALL-E 3 в ChatGPT.
Нужен серьёзный контроль и кастомизация → Stable Diffusion + ComfyUI.
Нужно встроить в свой продукт → SD/FLUX через API провайдеров (Replicate, fal.ai, RunPod).

Как работает диффузия

Самая необычная часть Stable Diffusion — то, как именно она «превращает текст в картинку». Без формул, на пальцах.

Идея «обратной зашумления»

Возьмите чёткое фото кота. Добавьте чуть-чуть случайного шума. Получите слегка зашумлённую картинку. Добавьте ещё. Ещё. И ещё, тысячу раз. В какой-то момент остаётся только шум — никакого кота, чистая цифровая каша.

Это forward process — прямой диффузионный процесс. Он простой: на каждом шаге добавляется немного гауссова шума.

А теперь — главный фокус. Что если обучить нейросеть обратному процессу? Дать ей зашумлённую картинку и попросить предсказать, как она выглядела на один шаг назад, до этой порции шума.

Это и есть reverse process — обратная диффузия. Нейросеть учится «вычитать шум» — шаг за шагом, тысячу шагов, начиная с чистого шума и заканчивая чёткой картинкой.

При генерации нового изображения:

Стартуем с чистого шума — случайного, как телеэкран без сигнала.
Подаём модели этот шум + текст промпта (через CLIP, который понимает текст и сопоставляет с визуальными концепциями).
Модель предсказывает: «если бы это была зашумлённая картинка кота, как она выглядела бы на один шаг чище?»
Применяем результат: чуть менее шумная картинка.
Повторяем 20-50 раз. На каждой итерации шум уменьшается, проявляется содержание.
В конце — чёткое изображение.

Звучит абсурдно. Работает офигенно. Это та же логика, что у VAE и других генеративных моделей, но с гораздо более стабильной математикой.

Латентное пространство — главный фокус Stable Diffusion

Чистая диффузия в пиксельном пространстве была бы дико медленной. Картинка 1024×1024 имеет 3 миллиона пикселей (с тремя каналами цвета). Делать тысячу шагов с 3-миллионным вектором — это нужны кластеры серверов.

Хитрость: перед диффузией картинку сжимают через специальную нейросеть — Variational Autoencoder (VAE). Она преобразует 1024×1024×3 в, например, 128×128×4 — это 65 000 чисел вместо 3 миллионов. В 46 раз меньше.

Этот сжатый формат называется latent — латентное представление. Сжатие не идеальное (теряются мелкие детали), но достаточное, чтобы вся семантика сохранилась.

Диффузия проводится в латентном пространстве. Это в десятки раз быстрее. После того как модель сгенерировала латент — VAE декодирует его обратно в обычную картинку 1024×1024.

Поэтому полное название архитектуры — Latent Diffusion Model. И поэтому Stable Diffusion может работать на одной игровой видеокарте, а не на дата-центре.

Роль текста и CLIP

Чтобы превратить текст в визуальное руководство, используется CLIP (Contrastive Language-Image Pre-training) — нейросеть от OpenAI, которая обучена сопоставлять картинки и тексты в одном семантическом пространстве.

Когда вы пишете промпт «кот на крыше под дождём», CLIP превращает его в embedding — вектор чисел длиной 768 или 1024. Этот вектор подаётся в диффузионную модель как условие (condition). Модель учится: «вот зашумлённая картинка + вот embedding кота на крыше → предскажи следующий шаг чистой картинки с котом на крыше».

CLIP — это связующее звено между текстом и визуалом. Без него Stable Diffusion не понимала бы промптов вообще.

Семейство моделей

К 2026 году в open-source-сцене несколько ключевых базовых моделей. Понимать их — значит понимать, какие у вас на вход доступны инструменты.

SD 1.5 — легенда из 2022

Вес файла: 4 ГБ. Разрешение: 512×512 нативно (можно растягивать через ухищрения). VRAM: 4 ГБ хватит для базовой генерации.

Самая популярная модель в истории open-source AI-art. На ней основан гигантский экосистема:

Тысячи fine-tunes под разные стили (Realistic Vision, Deliberate, DreamShaper, ePiCRealism)
Десятки тысяч LoRA под персонажей, стили, концепции
Сотни Textual Inversion (старая техника, аналог LoRA)
Большинство ControlNet тренированы изначально на SD 1.5

Когда использовать: если ваша задача — конкретный стиль, для которого есть готовая модель, и вы не хотите тратить много VRAM. Скорость генерации — секунды на средней видеокарте.

Минусы: 512×512 — это мало. Анатомия плохая (руки, ноги, лица — поплывут). Текст в картинках не получается. Архитектура устарела.

SDXL — рабочая лошадка 2023-2024

Вес файла: 6-7 ГБ. Разрешение: 1024×1024 нативно. VRAM: 8-12 ГБ для удобной работы.

Большой скачок над SD 1.5. Лучшее качество, нормальный размер из коробки, гораздо лучше анатомия. Архитектура двухступенчатая: базовая модель + опциональный refiner для доводки деталей.

Стандарт для серьёзных пайплайнов 2023-2024 года. Огромная экосистема LoRA, ControlNet, IP-Adapter специально под SDXL.

Когда использовать: баланс качества и скорости. До сих пор используется в 50% продакшен-пайплайнов в мире AI-art.

Минусы: медленнее SD 1.5 в 2-3 раза. С текстом в картинках по-прежнему слабо. Освещение и сложные сцены — не топ.

FLUX.1 / FLUX.2 — фронтир 2024-2026

Вес файла: 12-24 ГБ. Разрешение: 1024×1024 и выше. VRAM: 16-24 ГБ для комфортной работы.

В августе 2024 года команда Black Forest Labs (выходцы из Stability AI) опубликовала FLUX.1 — модель, которая на ряде задач сопоставима с Midjourney и часто обходит SDXL и SD 3.

Архитектура — улучшенный трансформер с MMDIT (мультимодальный диффузионный трансформер). 12 миллиардов параметров против 2-3 миллиардов у предшественников. Качество текста в изображениях — резкий скачок (можно генерить читаемые надписи). Композиция — почти как у Midjourney.

Версии:

FLUX.1 Pro — закрытая, только через API. Топовое качество.
FLUX.1 Dev — открытая, для некоммерческого использования. Близка по качеству к Pro.
FLUX.1 Schnell — открытая, ускоренная (генерит за 4 шага вместо 20-30). Качество чуть ниже.

К 2026 году вышла FLUX.2 с ещё лучшей композицией и пониманием промптов.

Когда использовать: топовое качество, тексты на картинках, сложные композиции, фотореализм.

Минусы: тяжёлая. Нужно 16-24 ГБ VRAM. Экосистема LoRA и ControlNet меньше, чем у SDXL, но быстро растёт.

SD 3.5 — обновлённая Stability

Stability AI после ухода Мостака пыталась вернуться в игру. SD 3 (вышла в 2024) — с новой архитектурой MMDIT, но первые версии были сильно слабее FLUX. SD 3.5 (конец 2024) — улучшенная версия.

Качество: между SDXL и FLUX. Лицензия: немного спорная (требует коммерческой лицензии в некоторых случаях). VRAM: 12-16 ГБ.

Когда использовать: если хотите альтернативу FLUX по более низким требованиям к железу.

Видеомодели

Параллельно с картинками развиваются видеомодели на той же базе:

AnimateDiff — расширение к SD 1.5/SDXL для коротких анимаций (2-4 секунды)
CogVideoX — открытая модель для генерации видео
Hunyuan Video — китайский фронтир, открытый
Wan 2.1 — мощная видеомодель 2025 года
LTX-Video — быстрая видеомодель

И закрытые сервисы — Runway, Kling, Pika, Sora (когда были живы) — они используют свои закрытые модели, но архитектурно очень похожи на open-source.

Эволюция Stable Diffusion — от SD 1.5 через SDXL и SD 3.5 к FLUX — Четыре поколения открытых моделей за четыре года. SD 1.5 — легенда с гигантской экосистемой, SDXL — рабочая лошадка, FLUX — фронтир качества 2026.

Параметры генерации

В отличие от Midjourney (где минимум настроек), Stable Diffusion даёт полный контроль. Понимать параметры — половина мастерства.

Steps — количество шагов

Steps (шаги) — сколько итераций модель пройдёт от шума к чёткой картинке.

Меньше шагов = быстрее, но качество ниже (контуры размытые, детали несформированные).
Больше шагов = медленнее, лучше детали.

Типичные значения: 20-30 шагов для SDXL, 20-40 для SD 1.5, 20-30 для FLUX Dev. У FLUX Schnell хватает 4 шагов.

Больше 50 шагов почти никогда не даёт значимого улучшения — закон уменьшающейся отдачи.

CFG Scale — сила следования промпту

CFG (Classifier-Free Guidance) — насколько строго модель следует промпту.

CFG 1 = почти игнорирует промпт, генерит случайно.
CFG 7-8 = стандарт. Баланс точности и креативности.
CFG 15-20 = модель будет «насильно» вписывать всё из промпта, часто с артефактами.

Для SDXL и SD 1.5 — оптимально 6-8. Для FLUX — особенность: использует guidance немного по-другому, оптимальное значение 3-4 (низкое).

Sampler и Scheduler

Sampler — алгоритм, который вычитает шум на каждом шаге. Их много: Euler, DPM++, DPM++ 2M Karras, UniPC, DDIM, LMS.

Scheduler — расписание, по которому распределяются «дозы» шума по шагам (Karras, Exponential, Normal, и т.д.).

Самые универсальные комбинации:

DPM++ 2M Karras — топ для SDXL и FLUX
Euler a (Euler ancestral) — для творческих задач (даёт более вариативные результаты)
DDIM — для воспроизводимости с одного seed
UniPC — быстрый и качественный

В 90% случаев первая опция — лучшая. Углубляться стоит, только если хотите экспериментировать с конкретными стилями.

Seed — стартовый шум

Seed — число, которое определяет, какой именно случайный шум будет на старте. Тот же seed + тот же промпт + те же параметры = тот же результат. Каждый раз. Это критично для:

Воспроизводимости (поделиться результатом так, чтобы другой человек повторил)
Итеративной работы (зафиксировал seed, меняешь только промпт)
Сравнения параметров (с тем же seed разница между сэмплерами видна чище)

В UIs обычно есть кнопка «случайный seed» (-1) и «зафиксировать предыдущий».

Negative Prompt

Negative Prompt — что не должно быть на картинке.

«Плохие руки, лишние пальцы, кривое лицо, низкое качество, размытость» — типичный negative prompt для портретов.

В SD 1.5 и SDXL negative prompt — мощный инструмент. В FLUX — почти не работает (по архитектурным причинам, там CFG-механика другая).

Aspect Ratio и Resolution

Aspect Ratio — соотношение сторон. Модели обучены на определённых разрешениях:

SD 1.5: 512×512, 512×768, 768×512
SDXL: 1024×1024, 1024×1536, 1536×1024 (и другие комбинации)
FLUX: 1024×1024, 1024×1792, 1792×1024

Использование разрешений, не предусмотренных при обучении, приводит к деформациям анатомии (две головы, четыре глаза). Лучше следовать «родным» AR модели.

Denoising Strength (для img2img)

Denoising Strength — насколько сильно модель будет менять входное изображение в img2img режиме.

0 = без изменений (модель не работает).
0.3-0.5 = тонкая корректировка (стилизация, лёгкая правка).
0.6-0.8 = значительная переработка с сохранением композиции.
1.0 = полная перегенерация (входная картинка игнорируется).

Инструменты — где запускать

Базовая модель — это файл с весами (.safetensors или .ckpt). Чтобы с ним работать, нужен интерфейс.

ComfyUI — нодовый редактор для серьёзных

ComfyUI — главный инструмент серьёзной работы с SD в 2026. Это нодовый редактор, где вы соединяете блоки в граф: «загрузить модель» → «токенизировать промпт» → «KSampler» → «декодировать VAE» → «сохранить картинку».

Плюсы:

Полный контроль: видно каждый этап генерации.
Воспроизводимость: весь pipeline сохраняется как JSON.
Расширяемость: тысячи Custom Nodes под любую задачу.
Эффективность: использует VRAM экономнее, чем альтернативы.
Стандарт индустрии: вакансии «AI artist», «AI video specialist» практически все требуют ComfyUI.

Минусы:

Сложнее на старте. Требует понимания, что делают блоки.
UI выглядит как программа для электроинженеров — отпугивает новичков.

Менеджмент: ComfyUI Manager — расширение, через которое одной кнопкой ставятся новые ноды, модели, обновления.

Workflow можно сохранить как JSON и отправить коллеге — он откроет в своём ComfyUI ровно тот же pipeline.

AUTOMATIC1111 / Forge — UI с вкладками

AUTOMATIC1111 — старая школа. Веб-интерфейс с вкладками: txt2img, img2img, inpaint, extensions. Был стандартом 2022-2024.

Forge — оптимизированный форк A1111, работает быстрее на тех же ресурсах.

Плюсы:

Понятный UI с первого взгляда: поле для промпта, кнопка Generate.
Огромное количество расширений (Dynamic Prompts, Wildcards, Regional Prompter).
Простой старт для новичков.

Минусы:

Архитектурно устаревает. Поддержка FLUX и новых моделей — через костыли.
Не такая гибкость в пайплайнах, как у ComfyUI.

К 2026 году большинство профи перешли на ComfyUI. A1111/Forge — для тех, кто только начинает или работает с простыми задачами.

Fooocus — для абсолютных новичков

Fooocus — UI, который скрывает 90% параметров и даёт результат как у Midjourney с одного промпта. Использует SDXL внутри.

Плюсы: простота. Установил, запустил, написал промпт — получил красивую картинку. Минусы: мало контроля. Если хотите кастомизацию — переходите на ComfyUI.

Облачные сервисы

Если у вас нет мощного GPU локально:

fal.ai, Replicate, RunPod, Modal — API-провайдеры. Платите за время. Можно запускать любую открытую модель.
Civitai Generator — встроенный сервис на сайте моделей. Удобно для тестов.
TensorArt, SeaArt, Leonardo — веб-сервисы с подпиской. Уровень контроля выше Midjourney, но ниже локального ComfyUI.

Локальное железо

Если хотите серьёзно работать локально — нужна видеокарта Nvidia с минимум 12 ГБ VRAM. Оптимально:

RTX 4090 (24 GB) — топ для соло-художника
RTX 4080 (16 GB) — хороший баланс
RTX 3090 (24 GB) — старая, но всё ещё актуальна (особенно по цене)
RTX 4060 Ti 16GB — бюджетный вариант для SDXL
AMD Radeon — работает, но медленнее и с меньшей поддержкой инструментов

На Mac (через Apple Silicon) тоже работает, но в 5-10 раз медленнее. Linux/Windows на NVIDIA — стандарт.

Управление: LoRA, ControlNet, IP-Adapter

Голый Stable Diffusion даёт «средний» результат — то, чему модель училась в общем. Чтобы сделать что-то специфическое — стиль, персонажа, композицию, нужны управляющие модули.

LoRA — стиль и персонаж за выходные

LoRA (Low-Rank Adaptation) — техника лёгкого дообучения модели. Вы берёте базовую SD/SDXL/FLUX и обучаете на 20-200 картинках в нужном стиле. На выходе — маленький файл (50-300 МБ), который подключается к базовой модели и сдвигает её в нужную сторону.

Что бывает:

LoRA на стиль (винтаж, аниме, акварель, киберпанк)
LoRA на персонажа (узнаваемый герой)
LoRA на концепцию (определённая поза, определённый тип съёмки)
LoRA на объект (продукт бренда, локацию)

Обучается на одной RTX 4090 за 2-8 часов. Стоит ~$1-5 на облачном GPU.

Civitai (civitai.com) — главная площадка LoRA. Сотни тысяч готовых, по всем категориям.

Сила LoRA контролируется через множитель <lora:my_style:0.7> — 0.7 значит «применить на 70%». При 1.0 — полная сила, при 0.3 — едва заметно.

Несколько LoRA можно стекировать, но осторожно — конфликты дают артефакты.

ControlNet — управление композицией

ControlNet — extension, который позволяет управлять композицией через дополнительное изображение-референс.

Виды:

OpenPose — задать позу персонажа через scaleboard-человечка
Depth Map — задать глубину сцены (где близко, где далеко)
Canny Edge — задать контуры всей композиции
Segmentation Map — задать «здесь будет небо, здесь дом, здесь поле»
Lineart — задать чёрно-белые контуры (для иллюстрации)
Scribble — нарисовать черновик, модель допишет
Tile — апскейлинг + детализация
InstructP2P — текстовые инструкции типа «измени в стиле акварель»

ControlNet превращает SD из «придумай картинку» в «нарисуй конкретное по моему скетчу». Без ControlNet профессиональная работа невозможна — слишком случайные результаты.

IP-Adapter — референс по картинке

IP-Adapter — extension, похожий на ControlNet, но управляет стилем и содержимым через референсную картинку.

Сценарий: «нарисуй портрет в стиле этого старого фото» — даёте картинку как референс, IP-Adapter переносит стиль/цвет/композицию.

Особенно мощно работает связка IP-Adapter Face — переносить лицо с фото в генерацию. С его помощью можно делать узнаваемые портреты без обучения LoRA на персонаже.

Regional Prompting

Regional Prompting — приём, при котором разные части картинки получают разные промпты. Левая половина — пейзаж, правая — портрет. Верхняя четверть — небо, остальное — город.

Делается через специальные расширения (Regional Prompter в A1111, нативные ноды в ComfyUI).

Полезно для сложных композиций, где простой текст не справляется.

Embeddings и Textual Inversion

Textual Inversion — старая техника (предшественник LoRA). Маленький файл (20-100 КБ), которым модели прививают «новое слово» для концепции. Работает, но LoRA в большинстве случаев лучше.

Hypernetwork — ещё одна старая техника. К 2026 почти не используется, кроме legacy-пайплайнов.

ControlNet режимы — OpenPose, Depth, Canny, Segmentation — управление композицией — ControlNet превращает SD из «придумай картинку» в «нарисуй конкретное по моему скетчу». Поза, глубина, контуры, сегментация — каждый режим закрывает свой сценарий.

Img2img, Inpainting, Outpainting

Stable Diffusion работает не только в режиме «текст → картинка», но и в картинка → картинка через несколько техник.

Img2img — переделать существующее

Img2img — даёте модели исходную картинку и промпт. Она перерисовывает её в нужном направлении.

Параметр Denoising Strength контролирует, насколько сильно модель меняет вход. 0.3 — едва заметная стилизация, 0.7 — полная переработка с сохранением контуров, 0.95 — почти как генерация с нуля.

Применения:

Стилизация фото
Доработка плохой генерации
Перенос концепции через несколько итераций (текст → черновик → детализация → финал)

Inpainting — перерисовать кусок

Inpainting — выделяете маской область картинки и перерисовываете только её, оставляя остальное.

Применения:

Заменить лицо
Убрать объект (например, столб на фото)
Добавить деталь («теперь у этой женщины серьги»)
Исправить руки/анатомию

Для inpainting нужна специальная inpaint-модель (или используется обычная с режимом маски). Качество зависит от маски — чем точнее обведено, тем чище результат.

Outpainting — расширить границы

Outpainting — продолжить картинку за её исходные границы.

Применения:

Превратить 1:1 в 16:9 (для постера или баннера)
Расширить кадр для широкоэкранного видео
Добавить фон вокруг центрального объекта

Outpainting технически — это inpainting на «пустых» областях за пределами оригинала. Работает хуже, чем inpainting в центре, но в современных моделях (FLUX особенно) — уже на хорошем уровне.

Upscaling и доводка

Большая часть финальной работы — это апскейлинг и детализация.

Upscaler — увеличивает размер картинки (1024 → 2048, 4096, 8192). Используют:

ESRGAN и его варианты (RealESRGAN, 4x-UltraSharp) — лёгкие, быстрые
Tile-based upscaling — большую картинку разбивают на тайлы и каждый прогоняют через SD (tile diffusion)
Topaz Gigapixel — отдельный коммерческий продукт топового качества
SUPIR — фронтирный апскейлер с пониманием контента

Face Restoration — отдельная нейросеть для восстановления лиц (CodeFormer, GFPGAN). Полезно, когда лицо в генерации деформировано или нечёткое.

От картинки к видео

В 2024-2026 диффузия научилась двигаться во времени.

AnimateDiff — короткие анимации на базе SD

AnimateDiff — расширение к SD 1.5/SDXL, которое добавляет временное измерение. Модель учится не просто генерить кадр, а последовательность кадров с сохранением идентичности.

Что бывает:

16-64 кадра при 8 fps = 2-8 секунд анимации
768×768 или 1024×1024 разрешение
С ControlNet — управление позой по сцене

Качество — нормальное для коротких клипов, GIF-ок, лоопов. Не для серьёзного видео.

Hunyuan Video — китайский фронтир

Hunyuan Video (от Tencent) — открытая видеомодель 2024 года. 5-10 секунд видео в 720p. Качество сопоставимо с Runway и бьёт большинство закрытых на ряде задач. Веса опубликованы (но тяжёлые — 13 GB+).

Wan 2.1 — мощный open-source

Wan 2.1 — другая китайская open-source видеомодель. Конкурент Hunyuan. Хороша в реалистичных сценах.

LTX-Video — быстрая

LTX-Video — оптимизированная для скорости. Можно генерить видео почти в реальном времени на топовом GPU.

Закрытые сервисы — Runway, Kling, Pika, Veo

Runway, Kling, Pika — топовые закрытые сервисы для AI-видео в 2024-2026. Каждый со своими сильными сторонами:

Runway — хороший по контролю (раскадровки, image-to-video)
Kling (китайский) — лидер по реализму и длине (до 2 минут)
Pika — упрощённый UI, быстрая итерация
Google Veo 2 — мощный, но доступ ограничен

Все закрытые. Платные ($10-95/мес). В видеопроде 2026 года используются параллельно с open-source.

text-to-video vs image-to-video

Text-to-Video — генерация видео из текстового промпта. Сложнее всего.

Image-to-Video — оживление статической картинки. Проще, потому что начальный кадр задан. Качество обычно лучше.

На практике 90% профессиональной работы с видео-моделями — это image-to-video: сначала генерируется идеальный первый кадр через FLUX или Midjourney, потом он анимируется через Runway или Kling.

С чем не путать

Stable Diffusion ≠ Midjourney. SD — открытая, локальная, контролируемая, требует возни. Midjourney — закрытая, облачная, простая, дороже на больших объёмах.

Stable Diffusion ≠ DALL-E. DALL-E — продукт OpenAI, встроен в ChatGPT, закрытый. SD — независимая open-source модель.

SD 1.5 ≠ SDXL ≠ FLUX. Это разные модели разных поколений. Несовместимые LoRA и ControlNet (то, что обучено для SD 1.5, не работает для FLUX). Когда вы качаете LoRA — внимательно читайте, для какой модели обучена.

Stable Diffusion ≠ Stability AI. SD — название модели. Stability AI — название компании, которая её опубликовала. С 2024 года Stability в кризисе, многие сотрудники ушли. Новые мощные модели идут от Black Forest Labs (FLUX), а не от Stability.

ComfyUI ≠ Stable Diffusion. ComfyUI — это интерфейс. SD — это модель. ComfyUI работает не только с SD: можно подключить FLUX, видеомодели, аудио-модели, всё что угодно.

Latent ≠ Pixel. Картинка в latent space — это не то, что видит глаз. Это сжатое представление, понятное только VAE. Чтобы увидеть финальную картинку — нужно декодировать через VAE.

Inpainting model ≠ обычная модель. Для качественного inpaint нужна специальная inpaint-версия модели (или техника latent inpaint в ComfyUI). Обычная модель в режиме маски иногда даёт швы и артефакты.

Частые ошибки и заблуждения

«Stable Diffusion умрёт, потому что есть Midjourney». Не умрёт. Open-source даёт то, что закрытое не может: полный контроль, локальность, кастомизацию. Профессиональные пайплайны почти всегда используют SD/FLUX в комбинации.

«Хорошие картинки — это секретный промпт». Нет. Хорошие картинки — это процесс: правильная модель + LoRA + ControlNet + параметры + детализация. Магических промптов не существует. В FLUX/SDXL хороший промпт + хорошая модель = 80% результата, остальное — техника.

«Чем длиннее промпт — тем лучше». Не всегда. Для SD 1.5 — длинные промпты часто помогают. Для FLUX и SD 3 — короткие, естественно-языковые промпты работают лучше. «An old wooden cabin in misty forest at dawn, soft light, fog» работает в FLUX лучше, чем «8k, ultradetailed, masterpiece, best quality, octane render, professional photography, perfect lighting, depth of field, hyperrealistic».

«Стабильная диффузия = SD 1.5». В 2026 это уже устарело. SDXL и FLUX — современные стандарты. Используйте их.

«Не надо учить параметры — пиши промпт и крути». Можно. Но качество на голову выше у тех, кто понимает, что они крутят. Поняли разницу между sampler и scheduler — генерация стала контролируемой.

«Negative prompt всегда нужен». В SD 1.5/SDXL — да. В FLUX — почти не работает.

«LoRA добавляет к модели — больше всегда лучше». Не лучше. Стек из 5 LoRA с силой 1.0 обычно даёт хаос. Лучше 1-2 LoRA с силой 0.6-0.8. Тестируйте.

«Generated through AI не считается искусством». Это философский спор. Юридически в США в 2026 — generated через AI не имеет копирайта автоматически. В России — ситуация спорная, законодательство догоняет. Тем не менее коммерческое использование AI-картинок в дизайне, рекламе, видеопроде — массово.

«AI заменит художников». Нет. Изменит — да. Концепт-художники, иллюстраторы, дизайнеры используют SD как ускоритель, не как замену. Финальную композицию, эмоцию, идею — всё это даёт человек. Но рутину (множество вариантов, апскейлинг, ретушь) — берёт AI.

Карта дальше — куда копать

Если вы только начинаете:

Stable Diffusion — что это вообще
Diffusion-модель — теория
ComfyUI — главный инструмент
Steps, CFG Scale, Seed — три ключевых параметра

Архитектура:

VAE — сжимает картинки в латент
CLIP — превращает текст в visual embedding
Latent Space — где живёт диффузия
Sampler и Scheduler — алгоритм генерации

Семейство моделей:

SDXL — рабочая лошадка
FLUX — фронтир 2024-2026
Refiner — доводка деталей

Управление:

LoRA — стиль и персонаж
ControlNet — управление композицией
IP-Adapter — референс по картинке
OpenPose, Depth Map, Canny Edge — виды ControlNet
Regional Prompting — разные промпты для разных областей

Режимы работы:

Img2img — переделать существующую
Inpainting — перерисовать кусок
Outpainting — расширить границы
Upscaler — увеличить размер
Face Restoration — восстановить лицо

Параметры:

Negative Prompt — чего не должно быть
Aspect Ratio — соотношение сторон
Denoising Strength — сила в img2img

Альтернативные модели:

Midjourney — премиальная закрытая
DALL-E — встроена в ChatGPT
AUTOMATIC1111 — старая школа UI

Видео:

Text-to-Video — генерация видео из текста
Image-to-Video — оживление картинки
Runway / Kling / Pika — топовые сервисы

Дообучение:

Fine-tuning — обучение модели под себя
DreamBooth — старый метод обучения персонажа
Trigger Word — слово-активатор для LoRA
Dataset Captioning — подписи к обучающим картинкам

Технические нюансы:

Safetensors — формат файлов моделей
VRAM — память видеокарты
Custom Nodes — расширения ComfyUI

Большие разборы:

Что такое нейросеть — устройство нейросетей в целом
Что такое LLM — про языковые модели
Как писать промпты — гид по prompt engineering

Или полный каталог 146 терминов — копайте по любым веткам.

Частые вопросы

Что нужно для запуска SD локально?

Видеокарта Nvidia с минимум 8 ГБ VRAM (для SD 1.5) или 12-16 ГБ (для SDXL и FLUX).
16-32 ГБ оперативной памяти.
50-200 ГБ места на диске (модели тяжёлые).
Windows, Linux или Mac (но Mac в 5-10 раз медленнее).
ComfyUI или AUTOMATIC1111 для UI.

Что лучше для начинающих — ComfyUI или A1111? Спорный вопрос. A1111/Forge проще на старте (одна страница, понятно). ComfyUI мощнее, но сложнее. Общий совет: если работа предполагается серьёзная — лучше сразу ComfyUI, потеряете неделю на изучение, но сэкономите годы потом. Если хотите быстро посмотреть, как оно вообще работает — A1111.

Где брать модели?

Civitai — главная база (модели, LoRA, embeddings). Десятки тысяч позиций.
Hugging Face — научный/корпоративный хаб (FLUX, базовые модели, fine-tunes).
TensorArt, SeaArt — альтернативы с фокусом на готовые модели.

Что лучше — FLUX или SDXL? По качеству — FLUX. По требованиям к железу — SDXL легче. По экосистеме LoRA/ControlNet — у SDXL пока больше (но FLUX быстро догоняет). Для топового качества и текстов на картинках — FLUX. Для массовой работы со множеством стилей — SDXL.

Можно ли коммерчески использовать AI-картинки? Зависит от модели и юрисдикции:

SD 1.5, SDXL, FLUX Schnell — CreativeML Open RAIL-M, разрешено коммерческое использование.
FLUX Dev — некоммерческая лицензия, нельзя для бизнеса.
FLUX Pro — только через API, коммерческая разрешена.
Midjourney, DALL-E — разрешено с подпиской.

В США автор AI-картинки не имеет копирайта (USCO 2023). В России и ЕС ситуация спорная. На свой риск.

Сколько времени уходит на генерацию?

SD 1.5 на RTX 4090: 1-3 секунды на картинку.
SDXL на RTX 4090: 5-15 секунд.
FLUX Dev на RTX 4090: 15-30 секунд.
На RTX 3060: всё в 3-5 раз медленнее.

Как сделать стиль конкретного фотографа/художника?

Найти готовую LoRA на Civitai.
Если нет — обучить свою на 30-100 примерах работы автора. Используйте Kohya GUI или ComfyUI training nodes.
Альтернатива: использовать IP-Adapter с референсными изображениями.

Что такое CFG > 10? «Кранчевый» режим — модель принудительно вписывает всё из промпта. Часто приводит к перенасыщенным цветам, артефактам. Используйте CFG 6-8 в большинстве случаев.

Почему руки получаются плохими?

В SD 1.5 — потому что в обучающих данных мало детальных рук.
В SDXL — лучше, но всё ещё не идеально.
В FLUX — почти идеальные руки из коробки.
Решения: hand inpaint, отдельная LoRA на руки, ControlNet OpenPose с прорисовкой рук.

Что такое hi-res fix? Hi-res fix — приём: сначала генерим в низком разрешении (520×520), потом апскейлим и снова прогоняем через SD в режиме img2img с низким denoising. Получаем большую картинку без артефактов «двойных голов», которые случаются при прямой генерации большого размера в SD 1.5.

Можно ли заработать на Stable Diffusion? Можно. Многие зарабатывают:

Концепт-арт для игр и кино (через прямые контракты или платформы вроде ArtStation).
Иллюстрации для блогов, обложек, презентаций.
Шаблоны и LoRA на продажу через Civitai (продаются за copy-cents до $50).
Курсы и обучение работе с AI-art.
Услуги по AI-визуализации для архитекторов, дизайнеров одежды, маркетологов.

Реальные доходы — от $500 до $20000 в месяц, в зависимости от уровня, аудитории, ниши.

Какой стек выбрать в 2026 для серьёзной работы?

GPU: RTX 4090 или хотя бы 4080 (16+ ГБ VRAM)
UI: ComfyUI + ComfyUI Manager
Базовые модели: FLUX Dev (для качества), SDXL (для скорости и LoRA)
Управление: ControlNet (Canny, OpenPose, Depth), IP-Adapter
Апскейл: Topaz Gigapixel или SUPIR в ComfyUI
Видео: Hunyuan + AnimateDiff локально + Runway/Kling для финальных кадров

Главное

Stable Diffusion — это революция open-source AI-art, которая в 2022 году превратила «генерировать картинки на компьютере» в массовую возможность. В 2026 году она — стандарт индустрии. На ней зарабатывают, ей учатся, её используют параллельно с закрытыми Midjourney и DALL-E.

Главные принципы запомнить:

SD — это семейство моделей, а не одна. Знайте, какая под какую задачу: SD 1.5 (старая, экосистема), SDXL (баланс), FLUX (топ).
Управление важнее промпта. LoRA, ControlNet, IP-Adapter — это то, что отличает «генерил случайно» от «делаю профессионально».
ComfyUI — стандарт индустрии. Время на освоение окупается за месяц.
Параметры — не магия. Steps, CFG, sampler, scheduler — потратьте час, поймёте раз и навсегда.
Видео — следующий фронтир. AnimateDiff, Hunyuan, Wan — open-source догоняет Runway и Kling.

И помните: на первой неделе всё будет получаться так себе. На второй — стабильно средне. На третьей — заметно лучше. На месячном рубеже — у вас уже свой стек, свои предпочтения, свой стиль. Это как любой инструмент. Кисть художнику тоже не сразу даётся.

Если эта статья зацепила — копайте через словарь. Там 146 терминов, каждый — отдельная статья с примерами. Большинство тем, упомянутых здесь, раскрыты подробно в своих статьях.

И не забывайте: лучшее место для учёбы — это практика. Час генераций каждый вечер в течение месяца — и через месяц вы будете там, где большинство «теоретиков AI» не окажется никогда.

Карта дальше — термины из словаря

Если хотите идти глубже — вот все термины, упомянутые в этом гиде. Можно открыть в новой вкладке и читать параллельно.

Что дальше:

Словарь AI-словарь 156 терминов → Понятные определения с инфографикой и FAQ. Новости Новости AI → Главное о нейросетях за неделю. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное.