DALL-E

dall-e — генератор изображений OpenAI, встроенный в ChatGPT

Раздел
Генеративные модели
Обновлено
18.05.26

DALL-E — семейство закрытых моделей генерации изображений от OpenAI, начатое в 2021 году. Третья версия (DALL-E 3) интегрирована в ChatGPT: пользователь пишет запрос на естественном языке, LLM сама улучшает промпт и передаёт его модели. Главные отличия от Stable Diffusion и FLUX — отсутствие локального запуска, тесная связка с ChatGPT и сильная цензура. В 2026 году DALL-E 3 доступен через API OpenAI, а внутри ChatGPT работает обновлённая нативная модель GPT-Image, унаследовавшая большую часть подхода.

Коротко

Коротко. DALL-E — генератор изображений от OpenAI, главная особенность которого — встроенность в ChatGPT. Пользователь пишет на естественном языке, LLM подбирает технический промпт и отправляет его в модель. Качество близко к Midjourney, лучше всех справляется с интеграцией текста и инструкций. Локального запуска нет, доступ — через ChatGPT, веб-интерфейс или API OpenAI.

Что это такое

Январь 2021-го. OpenAI публикует первую версию DALL-E. Модель умеет рисовать «авокадо-кресло» и «лиса в стиле Ван Гога» — для своего времени это сенсация, но публичного доступа нет.

В апреле 2022 выходит DALL-E 2 — публичная, через очередь приглашений. Картинки 1024×1024, чище и реалистичнее, чем у предшественника. Тогда же появляется первый редактор: inpainting и outpainting прямо в браузере.

Сентябрь 2023-го — DALL-E 3. Главное отличие: модель встроена в ChatGPT, и теперь LLM пишет за пользователя «правильный» технический промпт. Это решает главную проблему генераторов: люди не умеют формулировать промпты, и качество страдает.

В 2024–2025-м OpenAI запускает нативную мультимодальную модель GPT-4o с собственной генерацией изображений. К 2026-му внутри ChatGPT работает обновлённый «GPT Image», унаследовавший большую часть подхода DALL-E. Сама DALL-E 3 остаётся доступной через API.

Как это работает

DALL-E — это диффузионная модель, но за её работой стоит важный второй слой. В ChatGPT путь от запроса до картинки выглядит так:

  1. Пользователь пишет «нарисуй красивую обложку для подкаста про космос».
  2. ChatGPT (LLM) превращает короткий запрос в подробный технический промпт: жанр, композиция, освещение, стиль, цветовая палитра. Это занимает 0.5–1 секунду.
  3. DALL-E (или GPT Image) рисует картинку по обогащённому промпту.
  4. ChatGPT показывает результат и предлагает варианты доработки.

Через API эта цепочка короче: разработчик передаёт промпт напрямую в endpoint images.generate, без посредника-LLM. Поэтому через API нужно писать промпты сильно подробнее, чем в чате.

Параметры API:

  • model: dall-e-3 (или новые gpt-image-1 варианты).
  • size: 1024×1024, 1792×1024, 1024×1792.
  • quality: standard или hd.
  • style: vivid (по умолчанию, художественный) или natural (ближе к фотографии).

Пример на практике

Маркетолог делает посты для соцсетей: 30 разных тематик за неделю, каждая нуждается в обложке.

В ChatGPT Plus он пишет: «Сделай обложку для поста о тайм-менеджменте, минималистичный стиль, тёплая палитра, без текста». Через 25 секунд получает картинку 1024×1024 в нужном настроении. Не нравится цвет — пишет «сделай холоднее, добавь синего». ChatGPT перегенерирует.

Через час 30 обложек готовы. Стоимость — $20/мес за ChatGPT Plus, без дополнительных списаний. Через API то же количество обошлось бы примерно в $1.20 ($0.04 за стандартное изображение).

В Stable Diffusion та же серия потребовала бы локального запуска ComfyUI, ручного подбора промптов и нескольких итераций на каждую обложку. Зато не было бы лимитов и можно было бы использовать любые стили — без оглядки на цензуру OpenAI.

С чем часто путают

  • DALL-E и ChatGPT — DALL-E это модель генерации картинок, ChatGPT — LLM-ассистент. В чате они работают вместе: ChatGPT принимает запрос, DALL-E рисует.
  • DALL-E 2 и DALL-E 3 — v2 публичная с апреля 2022, без интеграции с ChatGPT. v3 — с сентября 2023, со связкой ChatGPT + улучшенным качеством и инструкциями.
  • DALL-E и GPT Image / gpt-image-1 — нативная мультимодальная генерация в GPT-4o (2024–2025). По интерфейсу выглядит как «новая DALL-E», но под капотом другая архитектура. К 2026 году именно она работает в ChatGPT.
  • DALL-E и Sora — обе от OpenAI, но Sora генерирует видео, DALL-E — статичные картинки. Архитектуры разные.

Частые ошибки и заблуждения

  • «DALL-E можно запустить локально». Нельзя. Все версии закрытые. Доступ — через ChatGPT, веб-сайт labs.openai.com (для DALL-E 2 ещё работает) и API OpenAI.
  • «ChatGPT и DALL-E это одна модель». Нет. ChatGPT — LLM, DALL-E — диффузионная модель. В интерфейсе они выглядят как одно целое, но это конвейер из двух моделей.
  • «DALL-E 3 рисует всё». Цензура жёсткая: реальные люди, политические фигуры, бренды, NSFW, насилие — блокируется. Часто срабатывает и на безобидные запросы вроде «парень в подвале».
  • «В API можно отключить переписывание промпта». Можно — параметр revised_prompt. Тогда DALL-E получит ваш промпт без обработки LLM. Часто результат заметно хуже, потому что модель привыкла к «обогащённым» промптам.
  • «DALL-E дешевле Midjourney». Зависит от объёма. Через ChatGPT Plus за $20 — да, на сотни картинок в месяц. Через API при больших объёмах Midjourney Standard за $30 часто выгоднее.

Связанные термины

  • ChatGPTLLM-ассистент OpenAI, через который чаще всего обращаются к DALL-E.
  • GPT-4o — мультимодальная модель OpenAI, которая в 2024–2025 заменила DALL-E внутри ChatGPT нативной генерацией.
  • Midjourney — закрытый конкурент с упором на художественный стиль.
  • Stable Diffusion / FLUX — открытые альтернативы для локального запуска.
  • OpenAI API — программный доступ ко всем моделям OpenAI, включая DALL-E 3.
  • Inpainting / Outpainting — функции редактирования картинок, доступные в веб-интерфейсе DALL-E 2.

Частые вопросы

Чем DALL-E отличается от Midjourney? DALL-E встроен в ChatGPT и понимает естественный язык. Midjourney работает отдельным сервисом через сайт или Discord и требует более «технических» промптов. Картинки DALL-E чаще ближе к фотографии, Midjourney — к художественной иллюстрации.

Сколько стоит DALL-E через API? DALL-E 3 — $0.04 за стандартное 1024×1024, $0.08 за HD-вариант. gpt-image-1 — отдельная тарификация в зависимости от размера и качества. Тысяча картинок обходится в $40–80.

Можно ли использовать картинки коммерчески? По правилам OpenAI — да, для всех платных тарифов и API. Авторские права на сгенерированное изображение принадлежат пользователю, который его создал.

Что лучше: DALL-E через ChatGPT или через API? Через ChatGPT удобнее для черновиков и быстрых задач: LLM сама пишет промпт. Через API — точнее: вы контролируете промпт, параметры и количество картинок программно. Для пайплайнов всегда API.

Что появилось в gpt-image-1? Нативная мультимодальная генерация: модель «думает» картинкой и текстом в одной сессии, может править существующие изображения, лучше держит контекст между запросами. В отличие от классической DALL-E, не требует отдельной модели для inpainting.

Главное

DALL-E — закрытый генератор от OpenAI, главное преимущество которого — связка с ChatGPT. Берите его, если важно простое управление через естественный язык и интеграция в продукт через API. Для художественной режиссуры чаще выгоднее Midjourney, для локального запуска и тонкой настройки — Stable Diffusion или FLUX через ComfyUI. В 2026 году внутри ChatGPT работает уже GPT Image, унаследовавший подход DALL-E.