VRAM

video RAM — память видеокарты, главный лимит локальных AI-моделей

Раздел
Параметры
Сокращ.
Video RAM
Обновлено
18.05.26

VRAM (Video RAM) — собственная память видеокарты, отдельная от системной RAM. Это главный лимит для локального AI: модель должна целиком поместиться в VRAM, иначе она не запустится или будет работать в десятки раз медленнее через offload. RTX 4060 8 ГБ — порог входа в Stable Diffusion 1.5; RTX 4090 24 ГБ — для SDXL и FLUX; H100 80 ГБ — для тренировки больших моделей.

Коротко

Коротко. VRAM — это память, встроенная прямо в видеокарту. Она быстрее системной RAM в 5–10 раз и работает только с GPU. Для AI это главный ресурс: модель должна поместиться в VRAM целиком. Если не хватает — генерация замедляется в десятки раз (offload на RAM) или вообще падает с ошибкой out of memory. Сколько нужно: 8 ГБ для SD 1.5, 12 ГБ для SDXL, 16–24 ГБ для FLUX, 80 ГБ для тренировки больших LLM.

Что это такое

Энтузиаст купил RTX 4060 — топовая, как говорят в обзорах, для игр. Запускает Stable Diffusion XL. Через 10 секунд: CUDA out of memory. Tried to allocate 2.31 GiB. В играх карта летает, в AI — отказывается работать. Причина — всего 8 ГБ VRAM, SDXL требует минимум 10.

Дальше начинается шаманство: галочки «Medvram» в AUTOMATIC1111, NF4-чекпоинты, генерация без upscaler'а, очистка кэша между промптами. Работает — но медленно. У соседа с RTX 4090 та же модель генерирует ту же картинку в 3 раза быстрее. Не потому что чипы умнее, а потому что в 24 ГБ VRAM ничего не приходится экономить.

VRAM (Video RAM, видеопамять) — это отдельный чип на видеокарте, который работает напрямую с GPU. У него своя шина (например, 384-битная), своя скорость (G6X — до 1000 ГБ/с), и он не делится ни с CPU, ни с другими картами. Что попало в VRAM — то быстро. Что не попало — приходится тащить из системной RAM или с диска, в 10–100 раз медленнее.

Для AI это критично: модель сама по себе — миллиарды чисел. Если хоть один тензор не помещается, ничего не работает.

Как это работает

Что именно занимает VRAM во время AI-задачи:

  1. Веса модели. Главное — основа. SDXL FP16 = 6,5 ГБ. FLUX.dev FP16 = 23 ГБ. Llama 3 70B FP16 = 140 ГБ.
  2. Активации и промежуточные тензоры. Внутри слоёв модель хранит частичные результаты. Зависит от batch size, разрешения и длины последовательности.
  3. Градиенты (только при тренировке). Ещё столько же байт, сколько занимают веса.
  4. Оптимизатор Adam (тренировка). Ещё в 2 раза больше весов.
  5. Текстовый энкодер, VAE, ControlNet — каждый по 200 МБ – 5 ГБ.
  6. CUDA-контекст, kernels, рабочая память — фиксированный overhead ~1 ГБ.

Когда VRAM кончается, есть три стратегии:

  • Out of memory — просто падение с ошибкой. Нужно уменьшить batch, разрешение или взять меньшую модель.
  • Offload to RAM — часть слоёв на системной памяти, по одному загружаются в VRAM. Работает, но в 5–20 раз медленнее.
  • Offload to disk — крайний случай. Скорость падает до неприемлемой, генерация одной картинки может занять полчаса.

Пример на практике

Видеомонтажёр выбирает видеокарту под Stable Diffusion и FLUX. Бюджет — около 100 тысяч рублей. Три варианта:

RTX 4060 Ti 16 ГБ. Слабее по скорости, чем 4070, но VRAM больше. Идеальна для AI: помещает SDXL + LoRA + ControlNet без offload'а. FLUX тоже идёт, но впритык. Генерация 1024×1024 SDXL — 6–8 сек.

RTX 4070 Super 12 ГБ. Быстрее в играх, но на FLUX упирается в VRAM. Без offload'а FP16 не запустится; FP8 запускается, но впритык. Та же SDXL-генерация — 5 секунд.

RTX 4090 24 ГБ. Стоит вдвое дороже, но проблем нет вообще. FLUX FP16, тренировка LoRA, ComfyUI с очередью на 10 картинок — всё одновременно. Стандарт для серьёзной работы.

Решение для нашего бюджета — RTX 4060 Ti 16 ГБ. Скорость для AI не главное (между 6 и 5 секундами разница невелика), главное — поместиться без offload'а.

В ComfyUI можно следить за загрузкой VRAM через --gpu-only режим или менеджер задач Windows (вкладка Performance → GPU → Dedicated GPU memory).

С чем часто путают

  • VRAM и RAM — VRAM на видеокарте, RAM на материнской плате. У них разная скорость (×5–10), и они не пересекаются физически.
  • VRAM и общая «графическая память» — в Windows есть понятие «Shared GPU memory» (50% системной RAM, которую может занять GPU при overflow). Это не настоящая VRAM, она медленная и работает как костыль.
  • VRAM и Disk — модели на SSD грузятся в VRAM при запуске. SSD только источник, а не рабочая память.
  • VRAM объём и тип — 16 ГБ GDDR6 быстрее, чем 16 ГБ GDDR5. Но для AI обычно важнее объём, а не тип.
  • VRAM и Unified Memory у Apple — на Mac M-серии нет отдельной VRAM, GPU использует общую RAM. Поэтому Mac с 64 ГБ RAM может загрузить FLUX FP16 (23 ГБ), хотя у Windows-видеокарт это редкость.

Частые ошибки и заблуждения

  • «У меня 32 ГБ RAM, модели на 24 ГБ запустятся». Не обязательно. Если речь о Windows PC с NVIDIA — модель должна влезть в VRAM. Системная RAM поможет только частично через offload, медленно.
  • «VRAM нужен только для игр». Нет. Игры справляются на 6–8 ГБ VRAM, AI — нет. Топ-игр требует 12, AI — 16+.
  • «Можно ли “купить ещё VRAM” отдельно?» На видеокартах нет. Покупаешь карту целиком с фиксированным объёмом памяти.
  • «AMD-видеокарты не подходят для AI». Работают, но через ROCm (Linux) или DirectML (Windows). Хуже совместимость, меньше оптимизаций. NVIDIA + CUDA остаётся стандартом.
  • «Две карты по 12 ГБ = 24 ГБ для AI». Только при специальной настройке (parallelism, tensor split). Большинство pipeline'ов в Stable Diffusion и LLM плохо умеют делиться между картами автоматически.

Связанные термины

  • CUDA — программный слой NVIDIA, через который AI обращается к VRAM.
  • Quantization — главный способ ужать модель под маленькую VRAM (Q4, FP8).
  • FP16 / BF16 / FP8 — форматы, прямо определяющие, сколько VRAM съест модель.
  • Offload — техника выноса части слоёв в RAM при нехватке VRAM.
  • Batch Size — один из главных потребителей VRAM при тренировке.
  • OOM (Out of Memory) — ошибка, типовое следствие нехватки VRAM.
  • Tensor Cores — специализированные блоки GPU; работают с данными в VRAM.

Частые вопросы

Сколько VRAM нужно для Stable Diffusion? SD 1.5 — комфортно от 6 ГБ. SDXL — от 10–12 ГБ. FLUX FP16 — от 24 ГБ, FP8 — от 12 ГБ, NF4 — от 8 ГБ.

Что делать, если выскакивает CUDA out of memory? По убыванию эффективности: 1) уменьшить разрешение, 2) batch=1, 3) включить medvram/lowvram, 4) перейти на FP8/NF4-чекпоинт, 5) выгрузить ComfyUI и пересоздать (память иногда фрагментируется).

Почему 8 ГБ — не 8 ГБ? Часть VRAM съедают Windows, монитор, CUDA-контекст. Реально доступно AI обычно 7,2 из 8 ГБ. На многомониторных конфигурациях — ещё меньше.

Влияет ли скорость VRAM (GDDR6 vs GDDR6X) на AI? Влияет, но слабее, чем объём. Разница ×1.2–1.5 по скорости. Объём ×2 даёт несравнимо больший выигрыш — запускаются модели, которые иначе не работают.

Можно ли использовать VRAM нескольких карт сразу? Для LLM-инференса — да, через tensor_split в llama.cpp, vLLM, exllama. Для Stable Diffusion — ограниченно, через специальные ноды в ComfyUI.

Что такое «Shared GPU memory» в Windows? 50% системной RAM, которую драйвер NVIDIA выделяет как страховку при переполнении VRAM. Скорость в 10 раз ниже настоящей VRAM. Лучше избегать переполнения, чем использовать shared.

Главное

VRAM — это память на самой видеокарте, главное ограничение для локального AI. Сколько модель помещается, столько и работает. Системная RAM спасает только частично и сильно замедляет процесс. Правило выбора железа простое: VRAM объём важнее количества CUDA-ядер. Старая карта на 24 ГБ обгонит новую на 8 ГБ на любой серьёзной задаче. При покупке видеокарты для AI на 2026 год: минимум 12 ГБ для SDXL, 16 ГБ для FLUX и комфортной работы, 24 ГБ — если планируется тренировка LoRA и работа с большими LLM локально.