Multimodal AI
multimodal — модель работает не только с текстом, но и с картинками, аудио, видео
Multimodal AI (мультимодальный AI) — модели, которые принимают и/или выдают разные типы данных: текст, изображения, аудио, видео. Одна модель может посмотреть на скриншот и описать его, послушать запись и сделать расшифровку, сгенерировать картинку по описанию или озвучить текст. К 2026-му мультимодальность — норма для топовых LLM (GPT-4o, Claude, Gemini): они нативно работают с картинками; отдельные модели — для видео и аудио.
Коротко
Коротко. Multimodal AI — это когда одна модель работает не только с текстом, но и с другими типами данных: изображениями, аудио, видео. Можно показать модели фотографию и попросить описать; передать аудио и получить транскрипт; сгенерировать картинку по описанию. К 2026-му мультимодальные функции встроены в GPT-4o, Claude 3.5, Gemini 1.5 на уровне chat-интерфейса; для видео и музыки часто используются отдельные специализированные модели.
Что это такое
Сентябрь 2023-го. OpenAI выкатывает GPT-4V — Vision. Можно прикрепить картинку прямо к чату и спросить «что не так с этим кодом» — модель прочитает скриншот IDE и ответит. Через полгода это переходит из «дорогой надстройки» в норму. К концу 2024-го мультимодальный AI — это норма для всех топовых моделей.
Старая ML-эпоха работала с одним типом данных за раз. Image classifier разбирался в картинках, но не понимал текст. NLP-модели обрабатывали текст, но слепы к иллюстрациям. Каждая задача — своя модель.
Современные мультимодальные модели делают иначе. Они переводят все типы данных в общее пространство (через embeddings) и работают с ними одинаково. Картинка превращается в последовательность токенов, как и текст. Дальше модель не различает «откуда» — она работает с потоком.
Это и есть multimodal AI. Не «один тип на входе» и не «один тип на выходе», а свободное смешивание: на вход кадры + текст-запрос → на выход текст + сгенерированная картинка + готовый JSON.
Как это работает
Технически мультимодальные модели бывают двух типов.
1. Native multimodal. Архитектура сразу учитывает несколько модальностей. Картинка проходит через vision-encoder (часто свёрточная сеть или ViT), результат подаётся в общий transformer вместе с текстовыми токенами. На выходе — тот же transformer генерирует токены, которые могут декодироваться в текст или картинку.
Примеры: GPT-4o (text + image in, text out), Gemini 1.5 (text + image + audio + video in, text out), Claude 3.5 (text + image in, text out).
2. Composed multimodal. Несколько специализированных моделей, соединённых через общее представление. CLIP — это связка text-encoder + image-encoder, обученная так, что пары «текст-картинка» получают близкие embedding'и. Stable Diffusion использует CLIP для понимания промпта + диффузионный декодер для генерации.
Типичные задачи мультимодального AI:
- Vision-Language. Модель смотрит на картинку и описывает её. «Что на фото?» → «Кот лежит на подоконнике, рядом окно с видом на горы».
- Image generation. Текст → картинка. Stable Diffusion, Flux, DALL-E, Midjourney.
- Audio transcription. Аудио → текст. Whisper.
- Text-to-Speech. Текст → голос. ElevenLabs, OpenAI TTS.
- Video understanding. Видео → описание/анализ. Gemini 1.5, Sora (на вход для генерации).
- Document AI. PDF (картинки + текст) → структурированный JSON. GPT-4V, Claude.
- Cross-modal search. Найти картинки по тексту или текст по картинке (CLIP).
Где это работает в реальных продуктах:
| Продукт | Что умеет |
|---|---|
| ChatGPT | text + image in, text out, image generation (DALL-E 3) |
| Claude | text + image in, text out (видео не нативно) |
| Gemini | text + image + audio + video in, text out + image |
| Perplexity | text + image in, text + цитаты |
| Midjourney | text → image |
| Sora / Veo / Runway | text/image → video |
| ElevenLabs | text → speech, voice cloning |
| Suno / Udio | text → music |
Пример на практике
Видеомонтажёр обрабатывает съёмочный материал — 200 видеофайлов после выезда. Нужно автоматически:
- Расшифровать речь во всех клипах (русский + английский).
- Найти кадры с конкретным человеком.
- Сгенерировать титры на основе расшифровки.
- Создать обложки для YouTube по описанию каждого видео.
Раньше — 4 разных программы и день работы.
Мультимодальный стек в 2026-м:
- Whisper Large v3 (audio → text). Прогон всех 200 клипов на RTX 3060 — час времени, локально. На каждый клип — JSON с timestamps и русско-английским текстом.
- CLIP + Qdrant (видео → embedding). Каждый клип разбивается на кадры через 1 секунду; каждый кадр — embedding. Затем поиск по эталонной фотографии актёра — выдаёт клипы, где он есть.
- GPT-4o (transcription → titles). Модель видит расшифровку и инструкцию «составь субтитры в формате SRT с разбиением на короткие фразы».
- Flux + ComfyUI (text → image). Промпт на основе синопсиса каждого видео → 16:9 обложка. 200 обложек — 30 минут.
Финальный workflow собирается в ComfyUI: 4 «ветки» с разными моделями, общая нода-оркестратор для каждого клипа. Всё локально, без отправки контента в облако (важно для конфиденциальных съёмок).
С чем часто путают
- Multimodal и Generative AI — Multimodal это про разные типы данных. Generative — про создание нового. Их пересечение огромное (большинство мультимодальных моделей генеративные), но не полное (CLIP мультимодальный, но не генеративный).
- Multimodal и Multilingual — multilingual это про разные языки. Multimodal — про разные типы данных. Это разные оси.
- Native multimodal и Composed — native всё делает одна модель. Composed — связка из нескольких. Внешне почти неотличимы, но архитектура разная.
- Vision-Language Model (VLM) и Multimodal — VLM это подмножество мультимодальных моделей, работающее с текстом и картинками. Multimodal шире (плюс аудио, видео).
- CLIP и Stable Diffusion — CLIP это encoder, понимающий связь текст ↔ картинка. SD использует CLIP для разбора промпта + свой диффузионный декодер для рисования. CLIP сам по себе не генерирует.
Частые ошибки и заблуждения
- «Multimodal модель умеет всё одинаково». Нет. У одной и той же модели качество в разных модальностях разное. GPT-4o лучше понимает текст, чем генерирует картинки.
- «Любой multimodal LLM поймёт видео». Нет. Большинство пока работают с фото или отдельными кадрами. Полноценное видео-понимание (с движением и временем) есть у Gemini 1.5 и ограниченно у GPT-4o.
- «Multimodal заменяет специализированные модели». Не заменяет в качестве. Whisper для транскрипции точнее, чем GPT-4o, который тоже умеет. Специализация даёт качество.
- «Картинки в GPT-4 — это OCR». Не только. Модель понимает контекст, расположение элементов, диаграммы, графики, не только текст в кадре.
- «Multimodal модели маленькие и быстрые». Нет. Vision-tokens обычно «дорогие» в плане compute. Картинка занимает ~85–170 токенов в контекстном окне в зависимости от разрешения, и обработка дороже, чем текст того же объёма.
Связанные термины
- CLIP — основа мультимодального поиска и многих image-generation систем.
- Vision-Language Model (VLM) — модели «текст + картинки».
- Whisper — лучшая open-source модель для аудио → текст.
- Stable Diffusion / Flux — text → image мультимодальные модели.
- Embedding — общее представление, в которое переводятся разные модальности.
- OCR — узкая задача распознавания текста в картинке; multimodal LLM умеет шире.
- Document AI — применение multimodal моделей к PDF и сложным документам.
- Sora / Veo — модели для генерации видео.
Частые вопросы
Какая модель сейчас лучшая мультимодальная? Зависит от задачи. Для понимания скриншотов и фото: Claude 3.5 Sonnet, GPT-4o. Для видео: Gemini 1.5 Pro. Для генерации картинок: Flux 1.1 Pro, Midjourney v6.
Что такое «vision tokens»? Когда модель видит картинку, она нарезается на patches и каждый превращается в токен. Стандартное фото 1024×1024 — это 85–170 токенов в зависимости от модели. Это же место в контексте.
Можно ли запустить мультимодальную модель локально? Да. Llava 1.6, BakLLaVA, MiniCPM-V — открытые VLM, работают на RTX 3060 12 GB. Whisper, Flux, SD — тоже локально. Качество ниже фронтирных моделей, но достаточно для многих задач.
Чем «нативная» мультимодальность лучше «склейки»? Нативная модель учитывает связи между модальностями: например, GPT-4o понимает, что элемент UI на скриншоте — это кнопка, и связывает её с задачей. Склейка через OCR + текстовый LLM теряет эту связь.
Что такое cross-modal retrieval? Поиск по разным модальностям. Запрос текстом → найти картинки. Или: запрос картинкой → найти похожие фото. Реализуется через CLIP-embeddings: и текст, и картинки идут в одно пространство.
Главное
Multimodal AI — это уход от мира «одна модель — один тип данных». Современные модели работают одновременно с текстом, картинками, аудио, видео — и часто на уровне отдельных продуктов. Для пользователя это означает простой UX: прикрепить скриншот, попросить расшифровать аудио, описать видео — всё через одну модель. Для разработчика — новые комбинации (RAG по картинкам, поиск кадров видео, multimodal-агенты), которые трудно было собрать раньше. Понимая, что один и тот же объект (картинка, текст, аудио) можно перевести в общее пространство embedding'ов, проще проектировать гибридные пайплайны.