Большой разбор

Контекстное редактирование изображений: как ИИ научился менять картинку одним словом

Контекстное редактирование изображений — это правка картинки текстовой инструкцией, когда нейросеть сама понимает, что изменить, а что сохранить, без ручной маски. «Сделай куртку красной» — и красной становится только куртка. Приём родился в 2022-м (InstructPix2Pix), а к 2026-му превратился в открытую войну гигантов: Nano Banana от Google, GPT Image от OpenAI и свободные FLUX Kontext, Qwen-Image-Edit и FLUX.2 Klein, которые работают прямо у вас на видеокарте. Это разбор о том, как мы сюда пришли — и что выбрать.

Чтение
21 мин
Уровень
Средний
Обновлено
05.06.26

Пролог: ночь, когда «Фотошоп» убили в анонимной песочнице

12 августа 2025-го, глубокая ночь. На LMArena — площадке, где модели сражаются вслепую и публика голосует, не зная имён, — кто-то выкладывает безымянного бойца. Подпись дурацкая: nano-banana. Имя придумал инженер Google в два часа ночи, чтобы спрятать, чья это модель. План был — раствориться в толпе.

Сработало наоборот.

За несколько дней «банан» начинает рвать всех в одной категории — редактирование изображений. Люди грузят свои селфи и просят превратить их в коллекционную 3D-фигурку в блистере. Модель возвращает гиперреалистичную игрушку — с тем же лицом, в той же одежде, под студийным светом. Тренд вспыхивает в Индии, за сутки перепрыгивает в Instagram и X, и к концу недели весь интернет занят одним: скармливает себя «банану». В лентах гремит слово «Photoshop killer».

26 августа Google снимает маску: nano-banana — это Gemini 2.5 Flash Image. К этому моменту модель собрала на арене больше двух с половиной миллионов голосов и оторвалась от ближайшего преследователя на 171 пункт Elo — крупнейший отрыв в истории арены для картинок. Приложение Gemini за пару недель получает больше 10 миллионов новых пользователей и 200+ миллионов правок.

Но вот в чём фокус. То, от чего у людей в августе 2025-го отвисла челюсть, — редактирование картинки простой фразой, без масок, без выделений, — придумали не Google. И не в 2025-м. Эта история начинается тремя годами раньше, в лаборатории Беркли, с тихой статьи и одной дерзкой кражи данных, которых не существовало в природе.

Война нейросетей за редактирование изображений — драматичная сцена в фиолетовых тонах
Лето 2025-го: безымянная модель под кодом «nano-banana» за неделю переписала правила. Но настоящая завязка случилась тремя годами раньше.

Старый мир: тирания лассо

Чтобы оценить переворот, надо вспомнить, как мучительно это было раньше.

До 2022-го «умное» редактирование сводилось к двум приёмам. Первый — inpainting: вы вырезаете маску, нейросеть заполняет дыру, подглядывая в окружение. Второй — img2img и перенос стиля: модель перерисовывает всю картинку целиком, и удержать в ней нужное почти невозможно. Оба требовали от человека одного и того же ритуала: сначала точно укажи область. Обведи лассо. Закрась кистью маски. Вырежи по контуру.

Идея просто сказать словами «сделай собаку счастливой» и получить ровно это — без выделения, без координат — в 2021-м звучала как фантастика. Картинка для модели была мешком пикселей. Она не понимала, где на ней собака, а где диван. А значит, не понимала, что именно вы хотите поменять.

Чтобы маска исчезла, сошлись три силы: диффузионные модели, которые вытеснили старые GAN-ы; CLIP, научивший сети связывать текст и картинку; и — неожиданно — большая языковая модель GPT-3, которая сыграет в этой истории роль фальшивомонетчика. Но об этом чуть позже. Сначала — три удара, расшатавшие стену.

Завязка: три удара по стене (2021–2022)

Удар первый — диффузионный молоток. Август 2021-го, Стэнфорд. Команда Чэньлинь Мэн и Стефано Эрмона публикует SDEdit. Идея проста до изящества: берёшь грубый набросок или коллаж, добавляешь шум — ровно столько, чтобы стереть кривизну, но сохранить замысел, — а потом диффузионная модель дочищает результат до фотореализма. Синие и красные мазки «кошка на диване» превращаются в настоящую кошку на настоящем диване. На людях это обошло лучшие GAN-методы по реализму с разгромным счётом. Но управлялось всё ещё рисунком, не словами.

Удар второй — текст приходит к реальным фото. Апрель 2022-го, OpenAI выпускает DALL·E 2. Впервые массовая публика загружает свою фотографию, рисует маску на куске и пишет запрос — модель генерирует нужное прямо в выделении, подгоняя свет и цвет под остальную сцену. Знаменитое демо: дорисованная «Девушка с жемчужной серёжкой» — outpainting достроил комнату вокруг вермееровской героини. Прорыв. Но маску по-прежнему рисует человек.

Удар третий — пульт от внимания. Тот же август 2022-го, Google Research. Работа Prompt-to-Prompt делает фундаментальное открытие: структура диффузионной картинки спрятана в cross-attention — в картах, которые показывают, какие пиксели «смотрят» на какие слова промпта. Подмени в тексте одно слово, заморозь карты внимания — и «собака» превратится в «кота» точно в той же позе, на том же месте. Маска не нужна вообще. Пока, правда, только для картинок, сгенерированных с нуля.

К осени 2022-го стена трещит по всем швам. Google добавляет Imagic (менять позу на реальном фото) и Null-text Inversion (точно «вспомнить» шумовой путь реальной фотографии, чтобы редактировать и её). Не хватает последнего шага — соединить всё это в одну модель, которой можно просто приказать.

Поворот: трое из Беркли крадут датасет, которого нет

17 ноября 2022-го. На arXiv выходит статья трёх человек из Калифорнийского университета в Беркли — Тима Брукса, Александра Холински и Алексея Эфроса. Называется InstructPix2Pix. Это и есть тот самый поворот, после которого редактирование изображений больше никогда не было прежним.

Вопрос, который они себе задали, звучал почти нагло: можно ли научить модель выполнять любую инструкцию редактирования — без маски, без инверсии, без дообучения под каждое фото? Просто «преврати лошадей в зебр» — и готово.

Проблема была убийственной. Чтобы обучить такую модель, нужен датасет из троек: «фото ДО → инструкция → фото ПОСЛЕ». Сотни тысяч штук. Такого датасета не существовало в природе. Никто никогда не сидел и не редактировал полмиллиона картинок вручную.

И тогда они его сфабриковали. Двухступенчатая фабрика данных — красивая, как ограбление банка:

  1. GPT-3 пишет сценарии правок. Команда вручную сочинила всего 700 примеров вида «описание картинки → инструкция → описание результата». На них дообучили GPT-3 — и языковая модель начала штамповать такие тройки сотнями тысяч, для случайных подписей из LAION.
  2. Stable Diffusion + Prompt-to-Prompt рисуют пары картинок. Для каждой пары «до/после» тот самый Prompt-to-Prompt из Google генерировал изображение и его отредактированную версию — так, чтобы они отличались ровно настолько, насколько отличаются подписи.

Итог: 454 445 синтетических троек. На них дообучили Stable Diffusion — сразу на двух условиях: исходная картинка плюс текстовая инструкция. Родилась модель, которая берёт любое фото и любую команду и за пару секунд выдаёт результат. А чтобы пользователь мог крутить баланс «менять / сохранять», ввели двойной classifier-free guidance — два ползунка: сила следования инструкции и сила сохранения оригинала.

Вот он, момент, ради которого всё затевалось. До InstructPix2Pix: хочешь изменить — рисуй маску. После: хочешь изменить — напиши словами. Маска исчезла из обязательного интерфейса. Модель сама научилась читать из фразы, что трогать, а что нет.

Маска и лассо растворяются в воздухе — момент изобретения редактирования по инструкции
Ноябрь 2022-го, Беркли: InstructPix2Pix убирает маску. Теперь картинку меняет не выделение, а фраза.

Что это даёт: пять примеров, понятных без слов

Чтобы почувствовать, что именно изобрели трое из Беркли, не нужны бенчмарки. Достаточно посмотреть на скучные ежедневные задачи, на которые раньше уходили часы в Photoshop, — а теперь хватает одной фразы и ни одной маски.

Убрать лишнее. Турист влез в кадр, на стене провод, на столе бардак. Скажите «убери человека на фоне» — и модель не просто вырежет его, а достроит то, что было за ним: стену, море, небо. Этим занимались inpainting и кисть маски, но раньше границу заплатки приходилось вылизывать вручную.

До и после: удаление лишнего объекта с фотографии одной фразой
Удаление объекта: «убери лишнее» — и модель достраивает фон, который был за предметом. Без выделения, без штампа.

Восстановить старое фото. Порванный, поцарапанный, выцветший снимок из семейного альбома. «Восстанови фотографию» — трещины затягиваются, царапины уходят, потерянные куски достраиваются по контексту лица и одежды.

До и после: восстановление старой порванной и поцарапанной фотографии
Восстановление: трещины, царапины и заломы уходят, выцветшие участки оживают — модель «додумывает» утраченное по контексту.

Оживить чёрно-белое. Старый ч/б портрет прадеда. «Раскрась естественными цветами» — появляется тёплый тон кожи, цвет глаз, рубашки. Лицо будто делает вдох.

До и после: чёрно-белый портрет оживает в естественных цветах
Оживление: чёрно-белый снимок обретает естественные цвета. Контекст подсказывает модели, что кожа тёплая, а небо голубое.

Соединить два кадра. Одно фото — человек, другое — закатный пляж. «Помести этого человека на этот пляж» — модель собирает единый кадр, согласовав свет, тени и перспективу. Именно эта склейка двух изображений и сделала Nano Banana вирусным.

Комбинация двух фотографий: человек с одного снимка переносится в сцену с другого
Комбинация: человек с одного фото и сцена с другого собираются в один кадр со согласованным светом и тенями.

Сменить фон или сезон. Зелёный летний парк. «Сделай зиму» — листва сходит, ложится снег, свет становится холодным и мягким. Та же сцена — другое настроение. Это прямой потомок того самого «преврати лошадей в зебр» из InstructPix2Pix.

До и после: летний парк превращается в зимний одной фразой
Смена сезона: «сделай зиму» — и лето превращается в снег. Вы описываете результат, а не способ его получить.

Заметьте общий принцип всех пяти: вы говорите не как это сделать — какие слои, какие пиксели, — а что должно получиться. Остальное модель додумывает из контекста картинки. В ComfyUI каждый такой приём — это маленький граф из нод, который собирается один раз и потом работает по любому фото.

Индустрия просыпается: Adobe и Meta поднимают ставки (2023)

Академический прорыв год пролежал в тишине — а потом ворвался в мейнстрим.

Май 2023-го. Adobe встраивает в Photoshop Generative Fill — генеративную заливку. Дизайнер делает выделение, пишет «кожаная куртка» — и куртка появляется, согласованная с позой, светом и перспективой. Adobe делает хитрый ход: обучает модель только на лицензированном стоке Adobe и публичном домене, чтобы продавать её как «безопасную для коммерции». К концу года через Firefly прогнали больше трёх миллиардов изображений. Контекстное редактирование из лабораторного фокуса стало кнопкой, которую жмут миллионы.

Ноябрь 2023-го. Meta отвечает работой Emu Edit и сдвигает планку качества. Её вопрос — не «выполнить инструкцию», а «выполнить её и не сломать всё остальное». Скажешь «добавь надпись на кепку» — форма, цвет и логотип кепки обязаны остаться нетронутыми. Чтобы добиться этого, Emu Edit обучили на 10 миллионах примеров и шестнадцати типах задач. В слепых тестах судьи предпочли её InstructPix2Pix в семи случаях из десяти.

Сцена готова. Все понимают, куда дует ветер. Остаётся вопрос: кто сделает это настолько хорошо, что отредактированную картинку нельзя будет отличить от настоящей — и при этом сохранит лицо человека неизменным через десять правок подряд? Гиганты уже выходят на ринг.

Большой взрыв: GPT-4o рисует словами (март 2025)

25 марта 2025-го OpenAI делает ход, которого не ждали. Новая генерация картинок в GPT-4o работает не как диффузия, а авторегрессионно — строит изображение токен за токеном, как текст.

Звучит занудно, а на практике это меняет всё. Авторегрессия даёт два сверхспособности: фантастическое следование инструкции и надёжный текст внутри картинки (там, где старый DALL·E 3 врал буквами в сорока процентах случаев). Попросите сложную многошаговую правку — модель её разберёт. Попросите вывеску с конкретной надписью — получите читаемую надпись.

23 апреля движок выходит в API под именем gpt-image-1 — с эндпоинтом редактирования: маска по желанию, несколько референсов, управление текстом. Это «GPT Image» — первый коммерческий редактор такого класса от OpenAI.

Дальше OpenAI разгоняется. В декабре 2025-го — gpt-image-1.5: вчетверо быстрее, дешевле, аккуратнее с лицами и логотипами. А в апреле 2026-го — gpt-image-2, и вот это уже другой зверь. В него встроили reasoning из o-серии: модель думает, прежде чем рисовать — планирует, ищет референсы, проверяет себя, и только потом кладёт первый пиксель. Точность текста — около 99% символ-в-символ, разрешение до 2048², «хирургическое» редактирование без дрейфа соседних деталей, и рекордный отрыв на LMArena. ИИ больше не «угадывает картинку» — он её проектирует.

Удар бананом: Google и вирусная буря (август 2025 → 2026)

Теперь вернёмся к той ночи из пролога — у нас есть контекст, чтобы понять масштаб.

Nano Banana (Gemini 2.5 Flash Image) выстрелил не просто фотореализмом. Он принёс две вещи, по которым публика сходила с ума. Первая — консистентность персонажа: одно лицо переносится в десятки сцен и костюмов, не теряя себя. Вторая — слияние нескольких фото: «возьми этого человека, эту комнату и этот свет — собери в один кадр» одной фразой. Плюс невидимый водяной знак SynthID на всём, что модель трогает.

Google не остановился. Ноябрь 2025-го — Nano Banana Pro на базе Gemini 3 Pro: рассуждение и поиск Google прямо в генерации, текст на многих языках, разрешение до 4K, удержание до пяти персонажей и четырнадцати объектов в одной сцене. Февраль 2026-го — Nano Banana 2 (Gemini 3.1 Flash Image): качество Pro на скорости Flash, раскатанное на Поиск, Ads и облако в 141 стране.

За полгода редактирование картинки фразой из лабораторной диковинки превратилось в кнопку в телефоне у сотен миллионов людей. Но у облачных гигантов есть ахиллесова пята: ваша картинка уезжает на чужой сервер, разрешение и настройки урезаны, на выходе — водяной знак, а тонкий контроль вам недоступен. И ровно в эту щель ворвался открытый мир.

Вирусная буря Nano Banana — селфи превращаются в светящиеся 3D-фигурки
Август 2025-го: «банановая» буря. Миллионы превращают свои селфи в фигурки одним промптом — и кричат «Photoshop killer».

Восстание открытого мира: FLUX Kontext выходит на ринг (лето 2025)

Пока Google и OpenAI бьются за облако, в игру вступают те, кто однажды уже подарил миру Stable Diffusion. Команда Black Forest Labs — выходцы из Stability AI, авторы оригинального SD — выкатывает FLUX.1 Kontext.

29 мая 2025-го — закрытые версии [pro] и [max] через API. А 26 июня случается то, ради чего ждали: открываются веса FLUX.1 Kontext [dev] — 12 миллиардов параметров, та же логика «правь по инструкции, сохраняя персонажа через несколько итераций», и поддержка ComfyUI с первого дня. Впервые контекстное редактирование уровня гигантов можно запустить у себя на видеокарте, бесплатно, без отправки картинок в чужое облако.

FLUX Kontext умеет главное: перенести персонажа в новую сцену без дообучения, поменять один объект, не задев остальное, наложить стиль с референса. Лицензия у [dev] некоммерческая, на BF16 хочется около 24 ГБ видеопамяти — но с квантизацией FP8 или GGUF он влезает и в 12–16 ГБ. И он быстрый: локально это один из самых шустрых редакторов, около 7–8 секунд на шаг.

Открытый мир сделал первый ход. Ответ пришёл с Востока — и он был громким.

Дракон с Востока: Qwen-Image-Edit (август 2025)

В том же горячем августе 2025-го, пока интернет жевал бананы, Alibaba выкладывает Qwen-Image-Edit — и делает это с открытыми весами под лицензией Apache 2.0, то есть можно всё, включая коммерцию.

Под капотом — 20-миллиардный мультимодальный диффузионный трансформер с хитрым двойным зрением: одна часть (Qwen2.5-VL) понимает смысл картинки — где кто и в какой позе, — а вторая (VAE) запоминает пиксельные детали — текстуры, цвета. Поэтому модель меняет смысл, не теряя деталей.

У неё есть киллер-фича, которой долго не было ни у кого: точная правка текста прямо в изображении, причём на двух языках сразу — латиница и иероглифы. Поменять слово на вывеске, сохранив шрифт, кегль и наклон; переписать букву в каллиграфии, не сломав соседние. Для дизайнера это золото.

И Alibaba не дала проекту замёрзнуть, выпуская обновления почти помесячно. Осенью 2025-го — Qwen-Image-Edit-2509: на вход уже до трёх изображений разом («этот человек» + «этот продукт» + «эта сцена» → один кадр), плюс встроенная поддержка карт позы и глубины, как у ControlNet. В декабре — 2511: меньше паразитных изменений в нетронутых зонах, стабильнее лицо при итерациях, встроенные LoRA на свет и на смену ракурса, и ускоренная версия 2511-Lightning, которая делает правку за 4 шага — порядка 32 секунд на RTX 3090 вместо восьми минут.

Восстание открытых моделей — FLUX и Qwen как драконы против облачных гигантов
Открытые FLUX Kontext и Qwen-Image-Edit вернули контроль пользователю: редактирование уровня гигантов — локально и бесплатно.

Финал, который влезает в видеокарту: FLUX.2 и Klein (ноябрь 2025 → январь 2026)

К зиме 2025-го гонка ускоряется до предела. 25 ноября Black Forest Labs выпускает FLUX.2 — новое поколение. Открытая [dev]-версия раздувается до 32 миллиардов параметров, получает текстовый энкодер на базе Mistral, понимает до десяти референсов разом и редактирует в 4 мегапикселя. Мощно — но 32B требуют серверного железа, дома такое не потянуть.

И тогда происходит развязка, ради которой стоило городить весь этот триллер. 15 января 2026-го выходит FLUX.2 [klein] (по-немецки «маленький») — дистиллированная, ужатая версия большой FLUX.2. Два варианта: 4B под свободной лицензией Apache 2.0 и 9B — мощнее, но некоммерческий.

Вот почему это финал. FLUX.2 [klein] 4B — это, пожалуй, самый удобный бесплатный локальный редактор на сегодня:

  • всего 4 шага вывода (а не 28–50, как у предков);
  • около секунды на картинку на свежей видеокарте, и запускается на скромных 8–13 ГБ видеопамяти — то есть на обычной RTX 3060/4070;
  • Apache 2.0 — коммерция разрешена без оговорок;
  • единая модель и для генерации, и для редактирования;
  • официальные workflow в ComfyUI из коробки.

Старший брат, FLUX.2 [klein] 9B, выдаёт картинку чище и точнее держит детали, ему хочется побольше памяти (около 13 ГБ в формате NVFP4, до 29 ГБ в полном), и лицензия у него уже некоммерческая, как у Kontext [dev]. Но как «последний и самый удобный из бесплатных» — связка Klein 4B/9B закрывает почти любую домашнюю задачу. Война гигантов в облаках обернулась тем, что её главное оружие теперь лежит у вас на столе и помещается в одну видеокарту.

Мощь редактирования изображений помещается в одну домашнюю видеокарту
2026-й: сила, за которую сражались гиганты, помещается в одну видеокарту. FLUX.2 Klein правит картинку за 4 шага и несколько секунд.

Развязка: что выбрать в 2026-м

Сложите всё вместе — и картина выбора становится ясной.

  • Нужен максимум качества и не жалко платить, картинка может уехать в облако — это Nano Banana 2 (Gemini 3.1 Flash Image) и gpt-image-2. Лучшее следование инструкции, идеальный текст, удержание множества персонажей. Минусы: чужой сервер, водяной знак, урезанный контроль.
  • Нужен бесплатный локальный редактор с лучшим текстом и гибкостьюQwen-Image-Edit-2511 (или Lightning для скорости). Apache 2.0, двуязычный текст, multi-image, дообучение под своего персонажа. Для дома — GGUF-квантизация Q4–Q5 на RTX 4070+.
  • Нужны скорость и чистые точечные правки локальноFLUX.1 Kontext [dev]: быстрый, аккуратный, но некоммерческий.
  • Нужна максимальная лёгкость и свобода лицензииFLUX.2 [klein] 4B (Apache 2.0): несколько секунд, скромная видеокарта, готовые ноды ComfyUI.

Все четыре «локальных» героя живут в ComfyUI — он давно стал стандартной мастерской для такой работы: собираете граф из нод, подаёте на вход картинку и инструкцию, на выходе получаете правку, не отправив ни пикселя на сторону.

Эпилог: маски больше нет

Оглянитесь на путь. 2021-й — вы рисуете мазки, надеясь, что машина угадает замысел. 2022-й — трое из Беркли подделывают полмиллиона картинок, и маска впервые становится необязательной. 2023-й — Adobe и Meta приносят это миллионам. 2025-й — Google роняет «банан» среди ночи, и редактирование фразой становится вирусом; следом открытый мир — FLUX Kontext, Qwen — возвращает власть пользователю. 2026-й — и вся эта мощь помещается в одну домашнюю видеокарту под именем FLUX.2 Klein.

За четыре года мы прошли от «обведи область мышкой» до «скажи, что хочешь». Картинка перестала быть мешком пикселей и стала тем, что машина понимает — целиком, в контексте. Маска, главный инструмент редактора последних тридцати лет, тихо ушла со сцены. Её заменило слово.

И это, возможно, самое важное во всей истории: лучший интерфейс к изображению оказался не кистью и не лассо, а обычной человеческой фразой.

Карта дальше — термины из словаря

Если хотите идти глубже — вот все термины, упомянутые в этом гиде. Можно открыть в новой вкладке и читать параллельно.