Diffusion LLM

diffusion LLM — языковая модель, которая «проявляет» текст из шума, а не печатает его слева направо

Раздел
Языковые модели
Сокращ.
Diffusion Language Model
Обновлено
04.06.26

Diffusion LLM (диффузионная языковая модель, dLLM) — языковая модель, которая генерирует текст не по одному токену слева направо, а «проявляет» весь блок сразу из маски за 10–20 шагов денойзинга — так же, как диффузионные модели делают картинку из шума. Главный выигрыш — скорость: Mercury (Inception Labs) и Gemini Diffusion (Google DeepMind) выдают 1000–1500 токенов в секунду против 60–200 у обычных авторегрессионных LLM. Сильнее всего проявляет себя на коде и задачах, где важна мгновенная отдача.

Коротко

Коротко. Diffusion LLM (dLLM) — языковая модель, которая работает не как печатная машинка, а как фотолаборатория. Обычная LLM печатает текст по одному токену слева направо: токен №50 не появится, пока не напечатан №49. Диффузионная модель начинает с блока сплошных масок и «проявляет» все токены сразу за 10–20 шагов денойзинга. Платой за параллелизм становится огромная скорость: Mercury Coder выдаёт около 1100 токенов в секунду на H100, Gemini Diffusion — около 1479. Это в 5–18 раз быстрее обычных LLM при сопоставимом качестве на коде.

Что это такое

Любой, кто работал в ComfyUI со Stable Diffusion, видел этот фокус сотни раз: на холсте сначала бесформенный шум, потом за несколько шагов из него проступает картинка — сначала размытые пятна, затем контуры, затем детали. Это денойзинг, шаг за шагом превращающий хаос в изображение.

А теперь представьте, что точно так же из шума «проявляется» не картинка, а абзац текста или функция на Python. Это и есть диффузионная языковая модель.

Чтобы оценить странность идеи, вспомним, как пишет обычная LLM — GPT, Claude, Gemini. Она авторегрессионна: предсказывает один следующий токен, дописывает его, снова предсказывает следующий — и так слева направо, тысячу раз для текста в тысячу токенов. Токен №50 физически не может появиться, пока не готовы первые сорок девять. Машинка выбивает буквы строго по одной.

Диффузионная модель ломает это правило. Она начинает не с пустого листа, а с последовательности целиком из масок — заглушек [MASK]. И на каждом шаге денойзинга смотрит на всю последовательность сразу, открывая токены пачками: сначала те, в которых уверена, потом остальные. Десять-двадцать таких шагов — и готов весь блок текста, который проявлялся одновременно, а не печатался по букве.

Идея зрела давно: дискретную диффузию для текста формализовали ещё в 2021-м (D3PM), а Stanford показал управляемую генерацию в Diffusion-LM в 2022-м. Но прорыв случился в 2025-м.

Как это работает

Механизм держится на двух процессах — прямом и обратном, ровно как в картиночной диффузии, только «шум» здесь другой.

Прямой процесс (зашумление). При обучении модель берёт чистый текст и постепенно маскирует токены: чем дальше шаг, тем больше заглушек. В пределе вся последовательность — сплошные [MASK].

Обратный процесс (денойзинг). Трансформер учится предсказывать все замаскированные токены сразу. На инференсе мы начинаем с полностью замаскированного блока и делаем 10–20 шагов: на каждом модель предлагает варианты для всех позиций параллельно и «фиксирует» самые уверенные, а наименее уверенные снова прячет под маску до следующего шага.

Откуда берётся скорость? Авторегрессионная модель на текст в 1000 токенов делает 1000 последовательных проходов, и между ними видеокарта простаивает — узкое место в задержке одного шага. Диффузионная делает 10–20 проходов, но каждый обрабатывает всю последовательность параллельно. Меньше проходов, лучше загрузка железа — отсюда кратный выигрыш по пропускной способности.

У скорости есть и обратная сторона. Задержка до первого токена у диффузионной модели выше (у Gemini Diffusion — около 0.84 секунды), длина вывода обычно фиксированная (нельзя генерировать «сколько получится»), а зрелой инфраструктуры вроде KV-кеша под неё пока нет. Поэтому на коротких ответах обычная быстрая LLM может оказаться расторопнее — преимущество dLLM растёт с длиной текста.

Пример на практике

Февраль 2025-го. Стартап Inception Labs выходит из тени и показывает Mercury Coder — первую коммерческую диффузионную модель для кода. За спиной проекта — Стефано Эрмон, профессор Stanford и один из пионеров диффузионных моделей вообще (тех самых, что легли в основу Stable Diffusion), плюс соавторы DPO. Люди, которые занимались этой математикой десять лет.

Цифры, которые подтвердил независимый замер Artificial Analysis, выглядят почти неприлично: Mercury Coder Mini — около 1100 токенов в секунду на одной H100. Тот же результат на HumanEval (88%), что у GPT-4o Mini, но GPT-4o Mini выдаёт его со скоростью около 60 токенов в секунду. Разница — примерно в 18 раз.

Чтобы почувствовать масштаб: 1100 токенов в секунду — это порядка 800 слов в секунду. Полный текст «Преступления и наказания» (около 130 тысяч слов) такая модель «проявила» бы менее чем за три минуты. Обычная модель печатала бы его больше получаса.

Через три месяца, на Google I/O в мае 2025-го, своё показала и Google DeepMind — Gemini Diffusion: около 1479 токенов в секунду, на демо с кодом доходило до 2000. Журнал Fortune назвал его «тихим хитом» конференции — анонс почти потерялся в потоке новостей, хотя меняет экономику инференса целиком.

С чем часто путают

  • Diffusion LLM и обычная (авторегрессионная) LLM — GPT и Claude печатают токены слева направо, по одному. dLLM проявляет весь блок параллельно. Снаружи обе «отвечают текстом» — разница спрятана в способе генерации.
  • Diffusion LLM и диффузия для картинок — общая идея денойзинга та же, но у картинок шум гауссов в непрерывном пространстве, а у текста — маскирование в дискретном. Это другой, более трудный класс задач.
  • Diffusion LLM и speculative decoding — спекулятивное декодирование тоже ускоряет генерацию, но остаётся авторегрессионным: маленькая модель пишет черновик токенов, большая проверяет пачкой. Его потолок — ускорение в 2–3 раза. dLLM не авторегрессионна в принципе и даёт 5–18.
  • Diffusion LLM и просто «быстрая LLM»Gemini Flash или Claude Haiku быстры за счёт дистилляции и квантизации, но они всё ещё печатают токены по одному. У dLLM скорость идёт из параллелизма, а не из оптимизации старого механизма.

Частые ошибки и заблуждения

  • «dLLM всегда быстрее». Не на коротких ответах. Выигрыш в пропускной способности, но задержка до первого токена выше. На реплике в 30 токенов хорошая авторегрессионная модель может ответить раньше. Преимущество растёт с длиной.
  • «dLLM заменят трансформеры». Диффузионные модели сами построены на трансформере — меняется не архитектура, а режим декодирования. Конкурируют не «трансформер против диффузии», а «авторегрессия против денойзинга».
  • «Это маркетинг, реальной разницы нет». Скорость Mercury подтвердил независимый Artificial Analysis, а Gemini Diffusion открыла методику замеров. Это инженерный результат, а не пресс-релиз.
  • «Качество уже как у GPT-4». На коде и математике dLLM подобрались вплотную (Mercury 2 в 2026-м берёт 91 на AIME). Но на длинном сложном рассуждении и строгом следовании инструкциям топовые авторегрессионные модели пока впереди. Разрыв сокращается, но не закрыт.

Связанные термины

  • LLM — авторегрессионные языковые модели, которым dLLM бросает вызов по скорости.
  • Transformer — базовая архитектура, которую диффузионные модели тоже используют.
  • Diffusion Model — родительский класс техники; для картинок это Stable Diffusion.
  • Token — единица текста, которую dLLM маскирует и проявляет.
  • Inference — этап генерации, где dLLM выигрывает у обычных моделей.
  • Reasoning Models — Mercury 2 (2026) стал первой диффузионной reasoning-моделью.

Частые вопросы

Почему диффузия для текста быстрее? Обычная модель делает тысячу последовательных проходов на тысячу токенов. Диффузионная — 10–20 проходов, каждый обрабатывает весь текст параллельно. Меньше проходов и лучше загрузка GPU дают кратный рост скорости.

Можно ли уже пользоваться? Mercury от Inception Labs доступен через API и нацелен на код. Gemini Diffusion на 2025–2026 — экспериментальное демо для доверенных тестеров, без публичного API.

Diffusion LLM генерирует картинки? Нет. Несмотря на слово «диффузия», это чисто текстовая (и кодовая) модель. С генерацией изображений она роднится только общей идеей денойзинга.

В чём слабые места? Высокая задержка до первого токена, часто фиксированная длина вывода, незрелая инфраструктура и отставание на сложном многошаговом рассуждении. Сильные стороны — скорость, редактирование и инфиллинг.

Это убьёт обычные LLM? Скорее займёт свою нишу — там, где важна мгновенная отдача и дешёвый инференс: автодополнение кода, агентные сценарии с тысячами вызовов. Для глубокого рассуждения авторегрессионные модели пока остаются стандартом.

Главное

Diffusion LLM переносит логику Stable Diffusion с картинок на текст: вместо печатной машинки, выбивающей токены по одному, — фотолаборатория, где весь абзац проявляется из маски за десяток шагов. Главный приз — скорость: 1000–1500 токенов в секунду против 60–200, подтверждённые независимыми замерами Mercury и Gemini Diffusion. Платится за это более высокой задержкой первого токена, фиксированной длиной и пока неполной зрелостью на сложном рассуждении. Это не замена трансформеру (dLLM сами на нём построены) и не убийца обычных LLM, а новый режим генерации, который меняет экономику инференса: если токен дешевеет в разы, целый класс агентных приложений, сегодня слишком дорогих, становится рентабельным. Гонка сместилась с «кто умнее» на «кто так же умён, но кратно быстрее» — и диффузия здесь оказалась тёмной лошадкой.