AI-словарь · Видео

Видео

AI-видео — создание и обработка движущегося изображения нейросетями: генерация ролика из текста (text-to-video), оживление картинки (image-to-video), липсинк, клонирование голоса. Раздел собирает инструменты и понятия, на которых держится производство видео без камеры.

Указатель

  1. 01
    AnimateDiff

    AnimateDiff — способ заставить обычную модель Stable Diffusion рисовать не один кадр, а короткое видео. К модели подключается отдельный «модуль движения» (motion module), обученный на видео:…

    Средний
  2. 02
    ElevenLabs

    ElevenLabs — лидер AI-голоса. Клонирование любого голоса по 30 секундам аудио, text-to-speech на 32 языках, моментальный дубляж видео с сохранением голоса оригинала. К 2026 — Eleven…

    Средний
  3. 03
    Music Generation

    Music Generation — создание музыки и песен по текстовому описанию. Главные платформы: Suno (песни с вокалом), Udio (студийное качество), Stable Audio (атмосферная музыка). Открытые: ACE-Step, MusicGen.…

    Средний
  4. 04
    Whisper

    Whisper — открытая модель распознавания речи (STT) от OpenAI, выпущена в сентябре 2022. Поддерживает 99 языков, включая русский на отличном уровне. Размеры от tiny (39M параметров)…

    Средний
  5. 05
    TTS и STT

    TTS (Text-to-Speech) и STT (Speech-to-Text) — две стороны работы с человеческой речью. TTS превращает текст в озвучку: ElevenLabs, OpenAI TTS, Google, Microsoft. STT превращает речь в…

    Средний
  6. 06
    Voice Cloning

    Voice Cloning — создание AI-голоса, неотличимого от голоса конкретного человека, по 10–30-секундной записи-сэмплу. Главные платформы: ElevenLabs (топ-качество), Resemble.ai, Play.ht. Open-source — XTTS, F5-TTS. К 2026-му качество…

    Средний
  7. 07
    Lip Sync

    Lip Sync — техника, которая «пересинхронизирует» движение губ говорящего на видео с другой аудио-дорожкой. Главные сценарии: дубляж видео на другие языки, замена реплик в готовых клипах,…

    Средний
  8. 08
    Runway, Kling, Pika

    Runway, Kling и Pika — главные альтернативы Sora и Veo для генерации видео. Runway Gen-4 (USA) — для VFX-pipelines, профессиональный инструмент. Kling (Kuaishou, Китай) — лучшая…

    Средний
  9. 09
    Image-to-Video

    Image-to-Video (I2V) — модель берёт статичную картинку и генерирует из неё короткое видео: 3–10 секунд. Можно задать промпт о желаемом движении («камера медленно двигается слева направо»,…

    Средний
  10. 10
    Text-to-Video

    Text-to-Video — генерация видео по текстовому описанию. Главные модели на 2026: OpenAI Sora 2 (до 60 сек, 1080p), Google Veo 2 (звук + физика), Runway Gen-4,…

    Средний