Большой разбор
Stable Diffusion: полный гид по генерации картинок и видео в 2026
Stable Diffusion — это открытая нейросеть, которая превращает текст в картинки. С 2022 года она стала стандартом индустрии: на ней работают ComfyUI, AUTOMATIC1111, Forge, и тысячи внешних сервисов. В отличие от Midjourney и DALL-E, SD можно запустить локально, настроить под себя и расширить через LoRA, ControlNet, IP-Adapter. Разбираем, как устроена диффузия, какие модели стоит знать, и где это всё работает в 2026.
Сцена первая: первая картинка из шума
22 августа 2022 года, ровно в 18:00 по тихоокеанскому времени, компания Stability AI публикует на GitHub веса первой версии Stable Diffusion. Параллельно — научная статья. Параллельно — пост в блоге. Параллельно — простая веб-демка.
Через три часа модель скачали 50 000 раз. Через неделю — миллион. Через две недели — на Reddit появляется первый сервис, где можно бесплатно генерить картинки в любом стиле, без регистрации. Через три недели — выходят первые LoRA-дообучения. Через два месяца — взрыв сообщества: фотографы переключаются на «AI-художников», концепт-дизайнеры в кино начинают использовать SD для предвизуализаций, тысячи людей в Discord-серверах учатся писать промпты к роботу.
В декабре 2022 за рубежом начинается публичная истерика. Художники бьют тревогу: «нас заменят». Юристы готовят иски: «нарушение копирайта». СМИ кричат: «AI победил искусство». Параллельно с этим — обычные люди в России, в Германии, в Бразилии скачивают веса, ставят AUTOMATIC1111 или ComfyUI на свои игровые компьютеры и генерят первые картинки.
К 2026 году Stable Diffusion прошла путь от шумного эксперимента до рабочего инструмента. На ней зарабатывают концепт-дизайнеры, моушн-дизайнеры, архитекторы для предвизов, художники-иллюстраторы, фотографы для замены фона, маркетологи для контента. В русскоязычной сцене активны тысячи людей, в мире — миллионы.
Этот разбор — про то, как Stable Diffusion устроена, чем отличаются её версии, какие у неё параметры, какие инструменты для работы существуют, и куда копать, если хочется не просто «сгенерить картинку из текста», а управлять процессом профессионально.
Что такое Stable Diffusion
Если убрать всё лишнее: Stable Diffusion — это нейросеть, обученная превращать текст в изображения.
«Stable» — стабильная, означает, что модель относительно дешёвая по вычислениям и предсказуемая. «Diffusion» — потому что в основе лежит диффузионный процесс — это специальный математический трюк, которому посвящён следующий раздел.
В отличие от закрытых Midjourney и DALL-E, у Stable Diffusion веса опубликованы. Это значит: любой человек может скачать файл (несколько гигабайт), запустить локально на своём компьютере (нужен мощный GPU), модифицировать, дообучить, встроить в продукт. Это open-source революция, которая запустила в 2022 году целое сообщество.
Откуда взялась
История Stable Diffusion начинается не со Stability AI, а с исследовательской группы CompVis в Мюнхенском университете. В 2021 году они опубликовали статью про Latent Diffusion Models — революционную идею: проводить диффузию не в пиксельном пространстве (где миллион размерностей на одну картинку 1024×1024), а в сжатом латентном пространстве (всего несколько тысяч размерностей).
Stability AI — стартап миллиардера Эмада Мостака — взяла эту научную работу, добавила ресурсы для обучения большой модели, договорилась с авторами и в августе 2022 опубликовала результат. Это была Stable Diffusion 1.4, чуть позже — 1.5 (которая стала легендарной).
С тех пор семейство расширялось:
- 2022: SD 1.4 → 1.5
- 2023: SDXL (улучшенная архитектура для больших разрешений)
- 2024: SD 3 (новая архитектура), SD 3.5
- 2024: FLUX.1 от Black Forest Labs (команда выходцев из Stability)
- 2025-2026: FLUX.2, новые fine-tunes, видеомодели на той же базе
К 2026 году flagship в категории «открытые модели картинок» — это FLUX. Stable Diffusion 1.5 — всё ещё используется (старая, но с гигантской экосистемой LoRA и инструментов). SDXL — рабочая лошадка для большинства задач. SD 3.5 — улучшение над предыдущим, но не дотягивает до FLUX.
Чем отличается от Midjourney и DALL-E
Главное практическое различие — открытость vs закрытость.
Midjourney (закрытая): запускается на их серверах, работает через Discord или их веб-интерфейс. Качество — премиальное, особенно для художественной графики и иллюстрации. Платить $10-60/мес. Ограничений в стиле меньше, чем у DALL-E. Но вы не можете запустить локально, модифицировать, дообучить.
DALL-E (закрытая, OpenAI): встроена в ChatGPT. Качество хорошее, особенно для фотореализма. Запускается в облаке OpenAI. Жёсткая цензура — много запрещённых тем (даже совершенно безобидные часто отказывает). Невозможно локальное использование.
Stable Diffusion / FLUX (открытые): запускаются у вас на железе. Качество в FLUX уже сопоставимо с Midjourney на многих задачах. Полный контроль: можно генерить что угодно, дообучить под свой стиль, встроить в свой продукт, использовать без подключения к интернету. Минус: нужен мощный GPU и техническое умение.
В 2026 году выбор зависит от задачи:
- Хотите быстро и красиво без возни → Midjourney.
- Нужен фотореализм для презентаций → DALL-E 3 в ChatGPT.
- Нужен серьёзный контроль и кастомизация → Stable Diffusion + ComfyUI.
- Нужно встроить в свой продукт → SD/FLUX через API провайдеров (Replicate, fal.ai, RunPod).
Как работает диффузия
Самая необычная часть Stable Diffusion — то, как именно она «превращает текст в картинку». Без формул, на пальцах.
Идея «обратной зашумления»
Возьмите чёткое фото кота. Добавьте чуть-чуть случайного шума. Получите слегка зашумлённую картинку. Добавьте ещё. Ещё. И ещё, тысячу раз. В какой-то момент остаётся только шум — никакого кота, чистая цифровая каша.
Это forward process — прямой диффузионный процесс. Он простой: на каждом шаге добавляется немного гауссова шума.
А теперь — главный фокус. Что если обучить нейросеть обратному процессу? Дать ей зашумлённую картинку и попросить предсказать, как она выглядела на один шаг назад, до этой порции шума.
Это и есть reverse process — обратная диффузия. Нейросеть учится «вычитать шум» — шаг за шагом, тысячу шагов, начиная с чистого шума и заканчивая чёткой картинкой.
При генерации нового изображения:
- Стартуем с чистого шума — случайного, как телеэкран без сигнала.
- Подаём модели этот шум + текст промпта (через CLIP, который понимает текст и сопоставляет с визуальными концепциями).
- Модель предсказывает: «если бы это была зашумлённая картинка кота, как она выглядела бы на один шаг чище?»
- Применяем результат: чуть менее шумная картинка.
- Повторяем 20-50 раз. На каждой итерации шум уменьшается, проявляется содержание.
- В конце — чёткое изображение.
Звучит абсурдно. Работает офигенно. Это та же логика, что у VAE и других генеративных моделей, но с гораздо более стабильной математикой.
Латентное пространство — главный фокус Stable Diffusion
Чистая диффузия в пиксельном пространстве была бы дико медленной. Картинка 1024×1024 имеет 3 миллиона пикселей (с тремя каналами цвета). Делать тысячу шагов с 3-миллионным вектором — это нужны кластеры серверов.
Хитрость: перед диффузией картинку сжимают через специальную нейросеть — Variational Autoencoder (VAE). Она преобразует 1024×1024×3 в, например, 128×128×4 — это 65 000 чисел вместо 3 миллионов. В 46 раз меньше.
Этот сжатый формат называется latent — латентное представление. Сжатие не идеальное (теряются мелкие детали), но достаточное, чтобы вся семантика сохранилась.
Диффузия проводится в латентном пространстве. Это в десятки раз быстрее. После того как модель сгенерировала латент — VAE декодирует его обратно в обычную картинку 1024×1024.
Поэтому полное название архитектуры — Latent Diffusion Model. И поэтому Stable Diffusion может работать на одной игровой видеокарте, а не на дата-центре.
Роль текста и CLIP
Чтобы превратить текст в визуальное руководство, используется CLIP (Contrastive Language-Image Pre-training) — нейросеть от OpenAI, которая обучена сопоставлять картинки и тексты в одном семантическом пространстве.
Когда вы пишете промпт «кот на крыше под дождём», CLIP превращает его в embedding — вектор чисел длиной 768 или 1024. Этот вектор подаётся в диффузионную модель как условие (condition). Модель учится: «вот зашумлённая картинка + вот embedding кота на крыше → предскажи следующий шаг чистой картинки с котом на крыше».
CLIP — это связующее звено между текстом и визуалом. Без него Stable Diffusion не понимала бы промптов вообще.
Семейство моделей
К 2026 году в open-source-сцене несколько ключевых базовых моделей. Понимать их — значит понимать, какие у вас на вход доступны инструменты.
SD 1.5 — легенда из 2022
Вес файла: 4 ГБ. Разрешение: 512×512 нативно (можно растягивать через ухищрения). VRAM: 4 ГБ хватит для базовой генерации.
Самая популярная модель в истории open-source AI-art. На ней основан гигантский экосистема:
- Тысячи fine-tunes под разные стили (Realistic Vision, Deliberate, DreamShaper, ePiCRealism)
- Десятки тысяч LoRA под персонажей, стили, концепции
- Сотни Textual Inversion (старая техника, аналог LoRA)
- Большинство ControlNet тренированы изначально на SD 1.5
Когда использовать: если ваша задача — конкретный стиль, для которого есть готовая модель, и вы не хотите тратить много VRAM. Скорость генерации — секунды на средней видеокарте.
Минусы: 512×512 — это мало. Анатомия плохая (руки, ноги, лица — поплывут). Текст в картинках не получается. Архитектура устарела.
SDXL — рабочая лошадка 2023-2024
Вес файла: 6-7 ГБ. Разрешение: 1024×1024 нативно. VRAM: 8-12 ГБ для удобной работы.
Большой скачок над SD 1.5. Лучшее качество, нормальный размер из коробки, гораздо лучше анатомия. Архитектура двухступенчатая: базовая модель + опциональный refiner для доводки деталей.
Стандарт для серьёзных пайплайнов 2023-2024 года. Огромная экосистема LoRA, ControlNet, IP-Adapter специально под SDXL.
Когда использовать: баланс качества и скорости. До сих пор используется в 50% продакшен-пайплайнов в мире AI-art.
Минусы: медленнее SD 1.5 в 2-3 раза. С текстом в картинках по-прежнему слабо. Освещение и сложные сцены — не топ.
FLUX.1 / FLUX.2 — фронтир 2024-2026
Вес файла: 12-24 ГБ. Разрешение: 1024×1024 и выше. VRAM: 16-24 ГБ для комфортной работы.
В августе 2024 года команда Black Forest Labs (выходцы из Stability AI) опубликовала FLUX.1 — модель, которая на ряде задач сопоставима с Midjourney и часто обходит SDXL и SD 3.
Архитектура — улучшенный трансформер с MMDIT (мультимодальный диффузионный трансформер). 12 миллиардов параметров против 2-3 миллиардов у предшественников. Качество текста в изображениях — резкий скачок (можно генерить читаемые надписи). Композиция — почти как у Midjourney.
Версии:
- FLUX.1 Pro — закрытая, только через API. Топовое качество.
- FLUX.1 Dev — открытая, для некоммерческого использования. Близка по качеству к Pro.
- FLUX.1 Schnell — открытая, ускоренная (генерит за 4 шага вместо 20-30). Качество чуть ниже.
К 2026 году вышла FLUX.2 с ещё лучшей композицией и пониманием промптов.
Когда использовать: топовое качество, тексты на картинках, сложные композиции, фотореализм.
Минусы: тяжёлая. Нужно 16-24 ГБ VRAM. Экосистема LoRA и ControlNet меньше, чем у SDXL, но быстро растёт.
SD 3.5 — обновлённая Stability
Stability AI после ухода Мостака пыталась вернуться в игру. SD 3 (вышла в 2024) — с новой архитектурой MMDIT, но первые версии были сильно слабее FLUX. SD 3.5 (конец 2024) — улучшенная версия.
Качество: между SDXL и FLUX. Лицензия: немного спорная (требует коммерческой лицензии в некоторых случаях). VRAM: 12-16 ГБ.
Когда использовать: если хотите альтернативу FLUX по более низким требованиям к железу.
Видеомодели
Параллельно с картинками развиваются видеомодели на той же базе:
- AnimateDiff — расширение к SD 1.5/SDXL для коротких анимаций (2-4 секунды)
- CogVideoX — открытая модель для генерации видео
- Hunyuan Video — китайский фронтир, открытый
- Wan 2.1 — мощная видеомодель 2025 года
- LTX-Video — быстрая видеомодель
И закрытые сервисы — Runway, Kling, Pika, Sora (когда были живы) — они используют свои закрытые модели, но архитектурно очень похожи на open-source.
Параметры генерации
В отличие от Midjourney (где минимум настроек), Stable Diffusion даёт полный контроль. Понимать параметры — половина мастерства.
Steps — количество шагов
Steps (шаги) — сколько итераций модель пройдёт от шума к чёткой картинке.
- Меньше шагов = быстрее, но качество ниже (контуры размытые, детали несформированные).
- Больше шагов = медленнее, лучше детали.
Типичные значения: 20-30 шагов для SDXL, 20-40 для SD 1.5, 20-30 для FLUX Dev. У FLUX Schnell хватает 4 шагов.
Больше 50 шагов почти никогда не даёт значимого улучшения — закон уменьшающейся отдачи.
CFG Scale — сила следования промпту
CFG (Classifier-Free Guidance) — насколько строго модель следует промпту.
- CFG 1 = почти игнорирует промпт, генерит случайно.
- CFG 7-8 = стандарт. Баланс точности и креативности.
- CFG 15-20 = модель будет «насильно» вписывать всё из промпта, часто с артефактами.
Для SDXL и SD 1.5 — оптимально 6-8. Для FLUX — особенность: использует guidance немного по-другому, оптимальное значение 3-4 (низкое).
Sampler и Scheduler
Sampler — алгоритм, который вычитает шум на каждом шаге. Их много: Euler, DPM++, DPM++ 2M Karras, UniPC, DDIM, LMS.
Scheduler — расписание, по которому распределяются «дозы» шума по шагам (Karras, Exponential, Normal, и т.д.).
Самые универсальные комбинации:
- DPM++ 2M Karras — топ для SDXL и FLUX
- Euler a (Euler ancestral) — для творческих задач (даёт более вариативные результаты)
- DDIM — для воспроизводимости с одного seed
- UniPC — быстрый и качественный
В 90% случаев первая опция — лучшая. Углубляться стоит, только если хотите экспериментировать с конкретными стилями.
Seed — стартовый шум
Seed — число, которое определяет, какой именно случайный шум будет на старте. Тот же seed + тот же промпт + те же параметры = тот же результат. Каждый раз. Это критично для:
- Воспроизводимости (поделиться результатом так, чтобы другой человек повторил)
- Итеративной работы (зафиксировал seed, меняешь только промпт)
- Сравнения параметров (с тем же seed разница между сэмплерами видна чище)
В UIs обычно есть кнопка «случайный seed» (-1) и «зафиксировать предыдущий».
Negative Prompt
Negative Prompt — что не должно быть на картинке.
«Плохие руки, лишние пальцы, кривое лицо, низкое качество, размытость» — типичный negative prompt для портретов.
В SD 1.5 и SDXL negative prompt — мощный инструмент. В FLUX — почти не работает (по архитектурным причинам, там CFG-механика другая).
Aspect Ratio и Resolution
Aspect Ratio — соотношение сторон. Модели обучены на определённых разрешениях:
- SD 1.5: 512×512, 512×768, 768×512
- SDXL: 1024×1024, 1024×1536, 1536×1024 (и другие комбинации)
- FLUX: 1024×1024, 1024×1792, 1792×1024
Использование разрешений, не предусмотренных при обучении, приводит к деформациям анатомии (две головы, четыре глаза). Лучше следовать «родным» AR модели.
Denoising Strength (для img2img)
Denoising Strength — насколько сильно модель будет менять входное изображение в img2img режиме.
- 0 = без изменений (модель не работает).
- 0.3-0.5 = тонкая корректировка (стилизация, лёгкая правка).
- 0.6-0.8 = значительная переработка с сохранением композиции.
- 1.0 = полная перегенерация (входная картинка игнорируется).
Инструменты — где запускать
Базовая модель — это файл с весами (.safetensors или .ckpt). Чтобы с ним работать, нужен интерфейс.
ComfyUI — нодовый редактор для серьёзных
ComfyUI — главный инструмент серьёзной работы с SD в 2026. Это нодовый редактор, где вы соединяете блоки в граф: «загрузить модель» → «токенизировать промпт» → «KSampler» → «декодировать VAE» → «сохранить картинку».
Плюсы:
- Полный контроль: видно каждый этап генерации.
- Воспроизводимость: весь pipeline сохраняется как JSON.
- Расширяемость: тысячи Custom Nodes под любую задачу.
- Эффективность: использует VRAM экономнее, чем альтернативы.
- Стандарт индустрии: вакансии «AI artist», «AI video specialist» практически все требуют ComfyUI.
Минусы:
- Сложнее на старте. Требует понимания, что делают блоки.
- UI выглядит как программа для электроинженеров — отпугивает новичков.
Менеджмент: ComfyUI Manager — расширение, через которое одной кнопкой ставятся новые ноды, модели, обновления.
Workflow можно сохранить как JSON и отправить коллеге — он откроет в своём ComfyUI ровно тот же pipeline.
AUTOMATIC1111 / Forge — UI с вкладками
AUTOMATIC1111 — старая школа. Веб-интерфейс с вкладками: txt2img, img2img, inpaint, extensions. Был стандартом 2022-2024.
Forge — оптимизированный форк A1111, работает быстрее на тех же ресурсах.
Плюсы:
- Понятный UI с первого взгляда: поле для промпта, кнопка Generate.
- Огромное количество расширений (Dynamic Prompts, Wildcards, Regional Prompter).
- Простой старт для новичков.
Минусы:
- Архитектурно устаревает. Поддержка FLUX и новых моделей — через костыли.
- Не такая гибкость в пайплайнах, как у ComfyUI.
К 2026 году большинство профи перешли на ComfyUI. A1111/Forge — для тех, кто только начинает или работает с простыми задачами.
Fooocus — для абсолютных новичков
Fooocus — UI, который скрывает 90% параметров и даёт результат как у Midjourney с одного промпта. Использует SDXL внутри.
Плюсы: простота. Установил, запустил, написал промпт — получил красивую картинку. Минусы: мало контроля. Если хотите кастомизацию — переходите на ComfyUI.
Облачные сервисы
Если у вас нет мощного GPU локально:
- fal.ai, Replicate, RunPod, Modal — API-провайдеры. Платите за время. Можно запускать любую открытую модель.
- Civitai Generator — встроенный сервис на сайте моделей. Удобно для тестов.
- TensorArt, SeaArt, Leonardo — веб-сервисы с подпиской. Уровень контроля выше Midjourney, но ниже локального ComfyUI.
Локальное железо
Если хотите серьёзно работать локально — нужна видеокарта Nvidia с минимум 12 ГБ VRAM. Оптимально:
- RTX 4090 (24 GB) — топ для соло-художника
- RTX 4080 (16 GB) — хороший баланс
- RTX 3090 (24 GB) — старая, но всё ещё актуальна (особенно по цене)
- RTX 4060 Ti 16GB — бюджетный вариант для SDXL
- AMD Radeon — работает, но медленнее и с меньшей поддержкой инструментов
На Mac (через Apple Silicon) тоже работает, но в 5-10 раз медленнее. Linux/Windows на NVIDIA — стандарт.
Управление: LoRA, ControlNet, IP-Adapter
Голый Stable Diffusion даёт «средний» результат — то, чему модель училась в общем. Чтобы сделать что-то специфическое — стиль, персонажа, композицию, нужны управляющие модули.
LoRA — стиль и персонаж за выходные
LoRA (Low-Rank Adaptation) — техника лёгкого дообучения модели. Вы берёте базовую SD/SDXL/FLUX и обучаете на 20-200 картинках в нужном стиле. На выходе — маленький файл (50-300 МБ), который подключается к базовой модели и сдвигает её в нужную сторону.
Что бывает:
- LoRA на стиль (винтаж, аниме, акварель, киберпанк)
- LoRA на персонажа (узнаваемый герой)
- LoRA на концепцию (определённая поза, определённый тип съёмки)
- LoRA на объект (продукт бренда, локацию)
Обучается на одной RTX 4090 за 2-8 часов. Стоит ~$1-5 на облачном GPU.
Civitai (civitai.com) — главная площадка LoRA. Сотни тысяч готовых, по всем категориям.
Сила LoRA контролируется через множитель <lora:my_style:0.7> — 0.7 значит «применить на 70%». При 1.0 — полная сила, при 0.3 — едва заметно.
Несколько LoRA можно стекировать, но осторожно — конфликты дают артефакты.
ControlNet — управление композицией
ControlNet — extension, который позволяет управлять композицией через дополнительное изображение-референс.
Виды:
- OpenPose — задать позу персонажа через scaleboard-человечка
- Depth Map — задать глубину сцены (где близко, где далеко)
- Canny Edge — задать контуры всей композиции
- Segmentation Map — задать «здесь будет небо, здесь дом, здесь поле»
- Lineart — задать чёрно-белые контуры (для иллюстрации)
- Scribble — нарисовать черновик, модель допишет
- Tile — апскейлинг + детализация
- InstructP2P — текстовые инструкции типа «измени в стиле акварель»
ControlNet превращает SD из «придумай картинку» в «нарисуй конкретное по моему скетчу». Без ControlNet профессиональная работа невозможна — слишком случайные результаты.
IP-Adapter — референс по картинке
IP-Adapter — extension, похожий на ControlNet, но управляет стилем и содержимым через референсную картинку.
Сценарий: «нарисуй портрет в стиле этого старого фото» — даёте картинку как референс, IP-Adapter переносит стиль/цвет/композицию.
Особенно мощно работает связка IP-Adapter Face — переносить лицо с фото в генерацию. С его помощью можно делать узнаваемые портреты без обучения LoRA на персонаже.
Regional Prompting
Regional Prompting — приём, при котором разные части картинки получают разные промпты. Левая половина — пейзаж, правая — портрет. Верхняя четверть — небо, остальное — город.
Делается через специальные расширения (Regional Prompter в A1111, нативные ноды в ComfyUI).
Полезно для сложных композиций, где простой текст не справляется.
Embeddings и Textual Inversion
Textual Inversion — старая техника (предшественник LoRA). Маленький файл (20-100 КБ), которым модели прививают «новое слово» для концепции. Работает, но LoRA в большинстве случаев лучше.
Hypernetwork — ещё одна старая техника. К 2026 почти не используется, кроме legacy-пайплайнов.
Img2img, Inpainting, Outpainting
Stable Diffusion работает не только в режиме «текст → картинка», но и в картинка → картинка через несколько техник.
Img2img — переделать существующее
Img2img — даёте модели исходную картинку и промпт. Она перерисовывает её в нужном направлении.
Параметр Denoising Strength контролирует, насколько сильно модель меняет вход. 0.3 — едва заметная стилизация, 0.7 — полная переработка с сохранением контуров, 0.95 — почти как генерация с нуля.
Применения:
- Стилизация фото
- Доработка плохой генерации
- Перенос концепции через несколько итераций (текст → черновик → детализация → финал)
Inpainting — перерисовать кусок
Inpainting — выделяете маской область картинки и перерисовываете только её, оставляя остальное.
Применения:
- Заменить лицо
- Убрать объект (например, столб на фото)
- Добавить деталь («теперь у этой женщины серьги»)
- Исправить руки/анатомию
Для inpainting нужна специальная inpaint-модель (или используется обычная с режимом маски). Качество зависит от маски — чем точнее обведено, тем чище результат.
Outpainting — расширить границы
Outpainting — продолжить картинку за её исходные границы.
Применения:
- Превратить 1:1 в 16:9 (для постера или баннера)
- Расширить кадр для широкоэкранного видео
- Добавить фон вокруг центрального объекта
Outpainting технически — это inpainting на «пустых» областях за пределами оригинала. Работает хуже, чем inpainting в центре, но в современных моделях (FLUX особенно) — уже на хорошем уровне.
Upscaling и доводка
Большая часть финальной работы — это апскейлинг и детализация.
Upscaler — увеличивает размер картинки (1024 → 2048, 4096, 8192). Используют:
- ESRGAN и его варианты (RealESRGAN, 4x-UltraSharp) — лёгкие, быстрые
- Tile-based upscaling — большую картинку разбивают на тайлы и каждый прогоняют через SD (tile diffusion)
- Topaz Gigapixel — отдельный коммерческий продукт топового качества
- SUPIR — фронтирный апскейлер с пониманием контента
Face Restoration — отдельная нейросеть для восстановления лиц (CodeFormer, GFPGAN). Полезно, когда лицо в генерации деформировано или нечёткое.
От картинки к видео
В 2024-2026 диффузия научилась двигаться во времени.
AnimateDiff — короткие анимации на базе SD
AnimateDiff — расширение к SD 1.5/SDXL, которое добавляет временное измерение. Модель учится не просто генерить кадр, а последовательность кадров с сохранением идентичности.
Что бывает:
- 16-64 кадра при 8 fps = 2-8 секунд анимации
- 768×768 или 1024×1024 разрешение
- С ControlNet — управление позой по сцене
Качество — нормальное для коротких клипов, GIF-ок, лоопов. Не для серьёзного видео.
Hunyuan Video — китайский фронтир
Hunyuan Video (от Tencent) — открытая видеомодель 2024 года. 5-10 секунд видео в 720p. Качество сопоставимо с Runway и бьёт большинство закрытых на ряде задач. Веса опубликованы (но тяжёлые — 13 GB+).
Wan 2.1 — мощный open-source
Wan 2.1 — другая китайская open-source видеомодель. Конкурент Hunyuan. Хороша в реалистичных сценах.
LTX-Video — быстрая
LTX-Video — оптимизированная для скорости. Можно генерить видео почти в реальном времени на топовом GPU.
Закрытые сервисы — Runway, Kling, Pika, Veo
Runway, Kling, Pika — топовые закрытые сервисы для AI-видео в 2024-2026. Каждый со своими сильными сторонами:
- Runway — хороший по контролю (раскадровки, image-to-video)
- Kling (китайский) — лидер по реализму и длине (до 2 минут)
- Pika — упрощённый UI, быстрая итерация
- Google Veo 2 — мощный, но доступ ограничен
Все закрытые. Платные ($10-95/мес). В видеопроде 2026 года используются параллельно с open-source.
text-to-video vs image-to-video
Text-to-Video — генерация видео из текстового промпта. Сложнее всего.
Image-to-Video — оживление статической картинки. Проще, потому что начальный кадр задан. Качество обычно лучше.
На практике 90% профессиональной работы с видео-моделями — это image-to-video: сначала генерируется идеальный первый кадр через FLUX или Midjourney, потом он анимируется через Runway или Kling.
С чем не путать
Stable Diffusion ≠ Midjourney. SD — открытая, локальная, контролируемая, требует возни. Midjourney — закрытая, облачная, простая, дороже на больших объёмах.
Stable Diffusion ≠ DALL-E. DALL-E — продукт OpenAI, встроен в ChatGPT, закрытый. SD — независимая open-source модель.
SD 1.5 ≠ SDXL ≠ FLUX. Это разные модели разных поколений. Несовместимые LoRA и ControlNet (то, что обучено для SD 1.5, не работает для FLUX). Когда вы качаете LoRA — внимательно читайте, для какой модели обучена.
Stable Diffusion ≠ Stability AI. SD — название модели. Stability AI — название компании, которая её опубликовала. С 2024 года Stability в кризисе, многие сотрудники ушли. Новые мощные модели идут от Black Forest Labs (FLUX), а не от Stability.
ComfyUI ≠ Stable Diffusion. ComfyUI — это интерфейс. SD — это модель. ComfyUI работает не только с SD: можно подключить FLUX, видеомодели, аудио-модели, всё что угодно.
Latent ≠ Pixel. Картинка в latent space — это не то, что видит глаз. Это сжатое представление, понятное только VAE. Чтобы увидеть финальную картинку — нужно декодировать через VAE.
Inpainting model ≠ обычная модель. Для качественного inpaint нужна специальная inpaint-версия модели (или техника latent inpaint в ComfyUI). Обычная модель в режиме маски иногда даёт швы и артефакты.
Частые ошибки и заблуждения
«Stable Diffusion умрёт, потому что есть Midjourney». Не умрёт. Open-source даёт то, что закрытое не может: полный контроль, локальность, кастомизацию. Профессиональные пайплайны почти всегда используют SD/FLUX в комбинации.
«Хорошие картинки — это секретный промпт». Нет. Хорошие картинки — это процесс: правильная модель + LoRA + ControlNet + параметры + детализация. Магических промптов не существует. В FLUX/SDXL хороший промпт + хорошая модель = 80% результата, остальное — техника.
«Чем длиннее промпт — тем лучше». Не всегда. Для SD 1.5 — длинные промпты часто помогают. Для FLUX и SD 3 — короткие, естественно-языковые промпты работают лучше. «An old wooden cabin in misty forest at dawn, soft light, fog» работает в FLUX лучше, чем «8k, ultradetailed, masterpiece, best quality, octane render, professional photography, perfect lighting, depth of field, hyperrealistic».
«Стабильная диффузия = SD 1.5». В 2026 это уже устарело. SDXL и FLUX — современные стандарты. Используйте их.
«Не надо учить параметры — пиши промпт и крути». Можно. Но качество на голову выше у тех, кто понимает, что они крутят. Поняли разницу между sampler и scheduler — генерация стала контролируемой.
«Negative prompt всегда нужен». В SD 1.5/SDXL — да. В FLUX — почти не работает.
«LoRA добавляет к модели — больше всегда лучше». Не лучше. Стек из 5 LoRA с силой 1.0 обычно даёт хаос. Лучше 1-2 LoRA с силой 0.6-0.8. Тестируйте.
«Generated through AI не считается искусством». Это философский спор. Юридически в США в 2026 — generated через AI не имеет копирайта автоматически. В России — ситуация спорная, законодательство догоняет. Тем не менее коммерческое использование AI-картинок в дизайне, рекламе, видеопроде — массово.
«AI заменит художников». Нет. Изменит — да. Концепт-художники, иллюстраторы, дизайнеры используют SD как ускоритель, не как замену. Финальную композицию, эмоцию, идею — всё это даёт человек. Но рутину (множество вариантов, апскейлинг, ретушь) — берёт AI.
Карта дальше — куда копать
Если вы только начинаете:
- Stable Diffusion — что это вообще
- Diffusion-модель — теория
- ComfyUI — главный инструмент
- Steps, CFG Scale, Seed — три ключевых параметра
Архитектура:
- VAE — сжимает картинки в латент
- CLIP — превращает текст в visual embedding
- Latent Space — где живёт диффузия
- Sampler и Scheduler — алгоритм генерации
Семейство моделей:
Управление:
- LoRA — стиль и персонаж
- ControlNet — управление композицией
- IP-Adapter — референс по картинке
- OpenPose, Depth Map, Canny Edge — виды ControlNet
- Regional Prompting — разные промпты для разных областей
Режимы работы:
- Img2img — переделать существующую
- Inpainting — перерисовать кусок
- Outpainting — расширить границы
- Upscaler — увеличить размер
- Face Restoration — восстановить лицо
- Negative Prompt — чего не должно быть
- Aspect Ratio — соотношение сторон
- Denoising Strength — сила в img2img
Альтернативные модели:
- Midjourney — премиальная закрытая
- DALL-E — встроена в ChatGPT
- AUTOMATIC1111 — старая школа UI
Видео:
- Text-to-Video — генерация видео из текста
- Image-to-Video — оживление картинки
- Runway / Kling / Pika — топовые сервисы
- Fine-tuning — обучение модели под себя
- DreamBooth — старый метод обучения персонажа
- Trigger Word — слово-активатор для LoRA
- Dataset Captioning — подписи к обучающим картинкам
Технические нюансы:
- Safetensors — формат файлов моделей
- VRAM — память видеокарты
- Custom Nodes — расширения ComfyUI
Большие разборы:
- Что такое нейросеть — устройство нейросетей в целом
- Что такое LLM — про языковые модели
- Как писать промпты — гид по prompt engineering
Или полный каталог 146 терминов — копайте по любым веткам.
Частые вопросы
Что нужно для запуска SD локально?
- Видеокарта Nvidia с минимум 8 ГБ VRAM (для SD 1.5) или 12-16 ГБ (для SDXL и FLUX).
- 16-32 ГБ оперативной памяти.
- 50-200 ГБ места на диске (модели тяжёлые).
- Windows, Linux или Mac (но Mac в 5-10 раз медленнее).
- ComfyUI или AUTOMATIC1111 для UI.
Что лучше для начинающих — ComfyUI или A1111? Спорный вопрос. A1111/Forge проще на старте (одна страница, понятно). ComfyUI мощнее, но сложнее. Общий совет: если работа предполагается серьёзная — лучше сразу ComfyUI, потеряете неделю на изучение, но сэкономите годы потом. Если хотите быстро посмотреть, как оно вообще работает — A1111.
Где брать модели?
- Civitai — главная база (модели, LoRA, embeddings). Десятки тысяч позиций.
- Hugging Face — научный/корпоративный хаб (FLUX, базовые модели, fine-tunes).
- TensorArt, SeaArt — альтернативы с фокусом на готовые модели.
Что лучше — FLUX или SDXL? По качеству — FLUX. По требованиям к железу — SDXL легче. По экосистеме LoRA/ControlNet — у SDXL пока больше (но FLUX быстро догоняет). Для топового качества и текстов на картинках — FLUX. Для массовой работы со множеством стилей — SDXL.
Можно ли коммерчески использовать AI-картинки? Зависит от модели и юрисдикции:
- SD 1.5, SDXL, FLUX Schnell — CreativeML Open RAIL-M, разрешено коммерческое использование.
- FLUX Dev — некоммерческая лицензия, нельзя для бизнеса.
- FLUX Pro — только через API, коммерческая разрешена.
- Midjourney, DALL-E — разрешено с подпиской.
В США автор AI-картинки не имеет копирайта (USCO 2023). В России и ЕС ситуация спорная. На свой риск.
Сколько времени уходит на генерацию?
- SD 1.5 на RTX 4090: 1-3 секунды на картинку.
- SDXL на RTX 4090: 5-15 секунд.
- FLUX Dev на RTX 4090: 15-30 секунд.
- На RTX 3060: всё в 3-5 раз медленнее.
Как сделать стиль конкретного фотографа/художника?
- Найти готовую LoRA на Civitai.
- Если нет — обучить свою на 30-100 примерах работы автора. Используйте Kohya GUI или ComfyUI training nodes.
- Альтернатива: использовать IP-Adapter с референсными изображениями.
Что такое CFG > 10? «Кранчевый» режим — модель принудительно вписывает всё из промпта. Часто приводит к перенасыщенным цветам, артефактам. Используйте CFG 6-8 в большинстве случаев.
Почему руки получаются плохими?
- В SD 1.5 — потому что в обучающих данных мало детальных рук.
- В SDXL — лучше, но всё ещё не идеально.
- В FLUX — почти идеальные руки из коробки.
- Решения: hand inpaint, отдельная LoRA на руки, ControlNet OpenPose с прорисовкой рук.
Что такое hi-res fix? Hi-res fix — приём: сначала генерим в низком разрешении (520×520), потом апскейлим и снова прогоняем через SD в режиме img2img с низким denoising. Получаем большую картинку без артефактов «двойных голов», которые случаются при прямой генерации большого размера в SD 1.5.
Можно ли заработать на Stable Diffusion? Можно. Многие зарабатывают:
- Концепт-арт для игр и кино (через прямые контракты или платформы вроде ArtStation).
- Иллюстрации для блогов, обложек, презентаций.
- Шаблоны и LoRA на продажу через Civitai (продаются за copy-cents до $50).
- Курсы и обучение работе с AI-art.
- Услуги по AI-визуализации для архитекторов, дизайнеров одежды, маркетологов.
Реальные доходы — от $500 до $20000 в месяц, в зависимости от уровня, аудитории, ниши.
Какой стек выбрать в 2026 для серьёзной работы?
- GPU: RTX 4090 или хотя бы 4080 (16+ ГБ VRAM)
- UI: ComfyUI + ComfyUI Manager
- Базовые модели: FLUX Dev (для качества), SDXL (для скорости и LoRA)
- Управление: ControlNet (Canny, OpenPose, Depth), IP-Adapter
- Апскейл: Topaz Gigapixel или SUPIR в ComfyUI
- Видео: Hunyuan + AnimateDiff локально + Runway/Kling для финальных кадров
Главное
Stable Diffusion — это революция open-source AI-art, которая в 2022 году превратила «генерировать картинки на компьютере» в массовую возможность. В 2026 году она — стандарт индустрии. На ней зарабатывают, ей учатся, её используют параллельно с закрытыми Midjourney и DALL-E.
Главные принципы запомнить:
- SD — это семейство моделей, а не одна. Знайте, какая под какую задачу: SD 1.5 (старая, экосистема), SDXL (баланс), FLUX (топ).
- Управление важнее промпта. LoRA, ControlNet, IP-Adapter — это то, что отличает «генерил случайно» от «делаю профессионально».
- ComfyUI — стандарт индустрии. Время на освоение окупается за месяц.
- Параметры — не магия. Steps, CFG, sampler, scheduler — потратьте час, поймёте раз и навсегда.
- Видео — следующий фронтир. AnimateDiff, Hunyuan, Wan — open-source догоняет Runway и Kling.
И помните: на первой неделе всё будет получаться так себе. На второй — стабильно средне. На третьей — заметно лучше. На месячном рубеже — у вас уже свой стек, свои предпочтения, свой стиль. Это как любой инструмент. Кисть художнику тоже не сразу даётся.
Если эта статья зацепила — копайте через словарь. Там 146 терминов, каждый — отдельная статья с примерами. Большинство тем, упомянутых здесь, раскрыты подробно в своих статьях.
И не забывайте: лучшее место для учёбы — это практика. Час генераций каждый вечер в течение месяца — и через месяц вы будете там, где большинство «теоретиков AI» не окажется никогда.
Карта дальше — термины из словаря
Если хотите идти глубже — вот все термины, упомянутые в этом гиде. Можно открыть в новой вкладке и читать параллельно.