AI-словарь · Видео

Видео

AI-видео — создание и обработка движущегося изображения нейросетями: генерация ролика из текста (text-to-video), оживление картинки (image-to-video), липсинк, клонирование голоса. Раздел собирает инструменты и понятия, на которых держится производство видео без камеры.

Указатель

01
AnimateDiff
AnimateDiff — способ заставить обычную модель Stable Diffusion рисовать не один кадр, а короткое видео. К модели подключается отдельный «модуль движения» (motion module), обученный на видео:…

Средний
02
ElevenLabs
ElevenLabs — лидер AI-голоса. Клонирование любого голоса по 30 секундам аудио, text-to-speech на 32 языках, моментальный дубляж видео с сохранением голоса оригинала. К 2026 — Eleven…

Средний
03
Music Generation
Music Generation — создание музыки и песен по текстовому описанию. Главные платформы: Suno (песни с вокалом), Udio (студийное качество), Stable Audio (атмосферная музыка). Открытые: ACE-Step, MusicGen.…

Средний
04
Whisper
Whisper — открытая модель распознавания речи (STT) от OpenAI, выпущена в сентябре 2022. Поддерживает 99 языков, включая русский на отличном уровне. Размеры от tiny (39M параметров)…

Средний
05
TTS и STT
TTS (Text-to-Speech) и STT (Speech-to-Text) — две стороны работы с человеческой речью. TTS превращает текст в озвучку: ElevenLabs, OpenAI TTS, Google, Microsoft. STT превращает речь в…

Средний
06
Voice Cloning
Voice Cloning — создание AI-голоса, неотличимого от голоса конкретного человека, по 10–30-секундной записи-сэмплу. Главные платформы: ElevenLabs (топ-качество), Resemble.ai, Play.ht. Open-source — XTTS, F5-TTS. К 2026-му качество…

Средний
07
Lip Sync
Lip Sync — техника, которая «пересинхронизирует» движение губ говорящего на видео с другой аудио-дорожкой. Главные сценарии: дубляж видео на другие языки, замена реплик в готовых клипах,…

Средний
08
Runway, Kling, Pika
Runway, Kling и Pika — главные альтернативы Sora и Veo для генерации видео. Runway Gen-4 (USA) — для VFX-pipelines, профессиональный инструмент. Kling (Kuaishou, Китай) — лучшая…

Средний
09
Image-to-Video
Image-to-Video (I2V) — модель берёт статичную картинку и генерирует из неё короткое видео: 3–10 секунд. Можно задать промпт о желаемом движении («камера медленно двигается слева направо»,…

Средний
10
Text-to-Video
Text-to-Video — генерация видео по текстовому описанию. Главные модели на 2026: OpenAI Sora 2 (до 60 сек, 1080p), Google Veo 2 (звук + физика), Runway Gen-4,…

Средний