Multimodal AI

multimodal — модель работает не только с текстом, но и с картинками, аудио, видео

Раздел
Основы AI
Обновлено
18.05.26

Multimodal AI (мультимодальный AI) — модели, которые принимают и/или выдают разные типы данных: текст, изображения, аудио, видео. Одна модель может посмотреть на скриншот и описать его, послушать запись и сделать расшифровку, сгенерировать картинку по описанию или озвучить текст. К 2026-му мультимодальность — норма для топовых LLM (GPT-4o, Claude, Gemini): они нативно работают с картинками; отдельные модели — для видео и аудио.

Коротко

Коротко. Multimodal AI — это когда одна модель работает не только с текстом, но и с другими типами данных: изображениями, аудио, видео. Можно показать модели фотографию и попросить описать; передать аудио и получить транскрипт; сгенерировать картинку по описанию. К 2026-му мультимодальные функции встроены в GPT-4o, Claude 3.5, Gemini 1.5 на уровне chat-интерфейса; для видео и музыки часто используются отдельные специализированные модели.

Что это такое

Сентябрь 2023-го. OpenAI выкатывает GPT-4V — Vision. Можно прикрепить картинку прямо к чату и спросить «что не так с этим кодом» — модель прочитает скриншот IDE и ответит. Через полгода это переходит из «дорогой надстройки» в норму. К концу 2024-го мультимодальный AI — это норма для всех топовых моделей.

Старая ML-эпоха работала с одним типом данных за раз. Image classifier разбирался в картинках, но не понимал текст. NLP-модели обрабатывали текст, но слепы к иллюстрациям. Каждая задача — своя модель.

Современные мультимодальные модели делают иначе. Они переводят все типы данных в общее пространство (через embeddings) и работают с ними одинаково. Картинка превращается в последовательность токенов, как и текст. Дальше модель не различает «откуда» — она работает с потоком.

Это и есть multimodal AI. Не «один тип на входе» и не «один тип на выходе», а свободное смешивание: на вход кадры + текст-запрос → на выход текст + сгенерированная картинка + готовый JSON.

Как это работает

Технически мультимодальные модели бывают двух типов.

1. Native multimodal. Архитектура сразу учитывает несколько модальностей. Картинка проходит через vision-encoder (часто свёрточная сеть или ViT), результат подаётся в общий transformer вместе с текстовыми токенами. На выходе — тот же transformer генерирует токены, которые могут декодироваться в текст или картинку.

Примеры: GPT-4o (text + image in, text out), Gemini 1.5 (text + image + audio + video in, text out), Claude 3.5 (text + image in, text out).

2. Composed multimodal. Несколько специализированных моделей, соединённых через общее представление. CLIP — это связка text-encoder + image-encoder, обученная так, что пары «текст-картинка» получают близкие embedding'и. Stable Diffusion использует CLIP для понимания промпта + диффузионный декодер для генерации.

Типичные задачи мультимодального AI:

  • Vision-Language. Модель смотрит на картинку и описывает её. «Что на фото?» → «Кот лежит на подоконнике, рядом окно с видом на горы».
  • Image generation. Текст → картинка. Stable Diffusion, Flux, DALL-E, Midjourney.
  • Audio transcription. Аудио → текст. Whisper.
  • Text-to-Speech. Текст → голос. ElevenLabs, OpenAI TTS.
  • Video understanding. Видео → описание/анализ. Gemini 1.5, Sora (на вход для генерации).
  • Document AI. PDF (картинки + текст) → структурированный JSON. GPT-4V, Claude.
  • Cross-modal search. Найти картинки по тексту или текст по картинке (CLIP).

Где это работает в реальных продуктах:

Продукт Что умеет
ChatGPT text + image in, text out, image generation (DALL-E 3)
Claude text + image in, text out (видео не нативно)
Gemini text + image + audio + video in, text out + image
Perplexity text + image in, text + цитаты
Midjourney text → image
Sora / Veo / Runway text/image → video
ElevenLabs text → speech, voice cloning
Suno / Udio text → music

Пример на практике

Видеомонтажёр обрабатывает съёмочный материал — 200 видеофайлов после выезда. Нужно автоматически:

  1. Расшифровать речь во всех клипах (русский + английский).
  2. Найти кадры с конкретным человеком.
  3. Сгенерировать титры на основе расшифровки.
  4. Создать обложки для YouTube по описанию каждого видео.

Раньше — 4 разных программы и день работы.

Мультимодальный стек в 2026-м:

  1. Whisper Large v3 (audio → text). Прогон всех 200 клипов на RTX 3060 — час времени, локально. На каждый клип — JSON с timestamps и русско-английским текстом.
  2. CLIP + Qdrant (видео → embedding). Каждый клип разбивается на кадры через 1 секунду; каждый кадр — embedding. Затем поиск по эталонной фотографии актёра — выдаёт клипы, где он есть.
  3. GPT-4o (transcription → titles). Модель видит расшифровку и инструкцию «составь субтитры в формате SRT с разбиением на короткие фразы».
  4. Flux + ComfyUI (text → image). Промпт на основе синопсиса каждого видео → 16:9 обложка. 200 обложек — 30 минут.

Финальный workflow собирается в ComfyUI: 4 «ветки» с разными моделями, общая нода-оркестратор для каждого клипа. Всё локально, без отправки контента в облако (важно для конфиденциальных съёмок).

С чем часто путают

  • Multimodal и Generative AI — Multimodal это про разные типы данных. Generative — про создание нового. Их пересечение огромное (большинство мультимодальных моделей генеративные), но не полное (CLIP мультимодальный, но не генеративный).
  • Multimodal и Multilingual — multilingual это про разные языки. Multimodal — про разные типы данных. Это разные оси.
  • Native multimodal и Composed — native всё делает одна модель. Composed — связка из нескольких. Внешне почти неотличимы, но архитектура разная.
  • Vision-Language Model (VLM) и Multimodal — VLM это подмножество мультимодальных моделей, работающее с текстом и картинками. Multimodal шире (плюс аудио, видео).
  • CLIP и Stable Diffusion — CLIP это encoder, понимающий связь текст ↔ картинка. SD использует CLIP для разбора промпта + свой диффузионный декодер для рисования. CLIP сам по себе не генерирует.

Частые ошибки и заблуждения

  • «Multimodal модель умеет всё одинаково». Нет. У одной и той же модели качество в разных модальностях разное. GPT-4o лучше понимает текст, чем генерирует картинки.
  • «Любой multimodal LLM поймёт видео». Нет. Большинство пока работают с фото или отдельными кадрами. Полноценное видео-понимание (с движением и временем) есть у Gemini 1.5 и ограниченно у GPT-4o.
  • «Multimodal заменяет специализированные модели». Не заменяет в качестве. Whisper для транскрипции точнее, чем GPT-4o, который тоже умеет. Специализация даёт качество.
  • «Картинки в GPT-4 — это OCR». Не только. Модель понимает контекст, расположение элементов, диаграммы, графики, не только текст в кадре.
  • «Multimodal модели маленькие и быстрые». Нет. Vision-tokens обычно «дорогие» в плане compute. Картинка занимает ~85–170 токенов в контекстном окне в зависимости от разрешения, и обработка дороже, чем текст того же объёма.

Связанные термины

  • CLIP — основа мультимодального поиска и многих image-generation систем.
  • Vision-Language Model (VLM) — модели «текст + картинки».
  • Whisper — лучшая open-source модель для аудио → текст.
  • Stable Diffusion / Flux — text → image мультимодальные модели.
  • Embedding — общее представление, в которое переводятся разные модальности.
  • OCR — узкая задача распознавания текста в картинке; multimodal LLM умеет шире.
  • Document AI — применение multimodal моделей к PDF и сложным документам.
  • Sora / Veo — модели для генерации видео.

Частые вопросы

Какая модель сейчас лучшая мультимодальная? Зависит от задачи. Для понимания скриншотов и фото: Claude 3.5 Sonnet, GPT-4o. Для видео: Gemini 1.5 Pro. Для генерации картинок: Flux 1.1 Pro, Midjourney v6.

Что такое «vision tokens»? Когда модель видит картинку, она нарезается на patches и каждый превращается в токен. Стандартное фото 1024×1024 — это 85–170 токенов в зависимости от модели. Это же место в контексте.

Можно ли запустить мультимодальную модель локально? Да. Llava 1.6, BakLLaVA, MiniCPM-V — открытые VLM, работают на RTX 3060 12 GB. Whisper, Flux, SD — тоже локально. Качество ниже фронтирных моделей, но достаточно для многих задач.

Чем «нативная» мультимодальность лучше «склейки»? Нативная модель учитывает связи между модальностями: например, GPT-4o понимает, что элемент UI на скриншоте — это кнопка, и связывает её с задачей. Склейка через OCR + текстовый LLM теряет эту связь.

Что такое cross-modal retrieval? Поиск по разным модальностям. Запрос текстом → найти картинки. Или: запрос картинкой → найти похожие фото. Реализуется через CLIP-embeddings: и текст, и картинки идут в одно пространство.

Главное

Multimodal AI — это уход от мира «одна модель — один тип данных». Современные модели работают одновременно с текстом, картинками, аудио, видео — и часто на уровне отдельных продуктов. Для пользователя это означает простой UX: прикрепить скриншот, попросить расшифровать аудио, описать видео — всё через одну модель. Для разработчика — новые комбинации (RAG по картинкам, поиск кадров видео, multimodal-агенты), которые трудно было собрать раньше. Понимая, что один и тот же объект (картинка, текст, аудио) можно перевести в общее пространство embedding'ов, проще проектировать гибридные пайплайны.