Whisper

Q: Какую модель выбрать?

Для production — large-v3. Для быстрых тестов — medium. Для CPU-only — base через whisper.cpp. Для streaming — tiny или base.

whisper — открытая модель распознавания речи от OpenAI

Раздел: Видео
Обновлено: 18.05.26

Whisper — открытая модель распознавания речи (STT) от OpenAI, выпущена в сентябре 2022. Поддерживает 99 языков, включая русский на отличном уровне. Размеры от tiny (39M параметров) до large-v3 (1.5B). Стандарт open-source для транскрипций, субтитров, дубляжа. Локально на RTX 4090 — 30× быстрее реального времени. Через OpenAI API — $0.006/минута.

Коротко

Коротко. Whisper — открытая модель распознавания речи от OpenAI. Сентябрь 2022, 5 размеров от tiny до large-v3. Поддерживает 99 языков, в том числе русский (точность ~95%+ на чистых записях). Multilingual transcription + translation в одной модели. Стандарт для open-source STT в 2022–2026. Доступна локально (Python pip install) или через OpenAI API ($0.006/минута). На RTX 4090 — 30× real-time.

Что это такое

Сентябрь 2022. OpenAI публикует Whisper — модель STT, обученную на 680 000 часах разнообразного аудио из интернета. Сразу выпускают открытыми все веса, MIT-лицензия. Это был подарок индустрии — раньше топ-STT был закрыт за подписками Google, Microsoft, AWS.

Сообщество в шоке: Whisper Large качеством сравним с коммерческими, но бесплатный. Через месяц появились whisper.cpp (CPU-версия), faster-whisper (10× быстрее через CTranslate2), интеграции в Audacity, OBS, любые open-source проекты.

К 2026-му Whisper — индустриальный стандарт open-source STT:

YouTube subtitles — автоматические субтитры на основе Whisper.
Видеомонтажные приложения: DaVinci Resolve, CapCut, Descript.
Транскрипционные сервисы: Otter, Fireflies — Whisper под капотом.
Подкастеры: обработка episodes для блогов, SEO.
Локализация: транскрипция → перевод → дубляж.

Размеры моделей:

Модель	Параметры	Скорость	Качество (RU WER)
tiny	39M	очень быстро	22%
base	74M	быстро	14%
small	244M	средне	9%
medium	769M	медленно	6%
large-v3	1.5B	медленнее	4%

WER (Word Error Rate) — процент ошибок. Для production обычно medium или large-v3.

Как это работает

Whisper — encoder-decoder transformer, обученный одновременно на двух задачах:

Transcription: аудио → текст на исходном языке.
Translation: аудио на любом языке → текст на английском.

Pipeline:

Audio → mel-spectrogram. Стандартное преобразование, 80-канальная репрезентация.
Encoder. Transformer обрабатывает spectrogram, выдаёт latent representation.
Decoder. Generates text токены, conditioned на encoder + специальные task tokens.

Special tokens задают режим:

<|en|> — английский.
<|ru|> — русский.
<|transcribe|> — транскрибировать.
<|translate|> — переводить на английский.
<|notimestamps|> — без таймкодов.
<|0.00|>–<|30.00|> — таймкоды каждой фразы.

Пример на практике

Видеомонтажёр обрабатывает 50 эпизодов подкаста (по часу каждый) для генерации субтитров и блог-постов.

Через Python + faster-whisper (open-source, локально):

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")

for ep in range(1, 51):
    audio = f"podcast_ep_{ep}.mp3"
    
    # transcribe
    segments, info = model.transcribe(
        audio,
        language="ru",
        beam_size=5,
        word_timestamps=True
    )
    
    # save SRT
    with open(f"podcast_ep_{ep}.srt", "w") as f:
        for i, seg in enumerate(segments, 1):
            f.write(f"{i}\n")
            f.write(f"{format_time(seg.start)} --> {format_time(seg.end)}\n")
            f.write(f"{seg.text}\n\n")

На RTX 4090 — 50 часов аудио обрабатываются за ~1.5 часа (30× real-time). 50 SRT-файлов готовы. Точность — ~96% на чистом подкастном аудио.

В ComfyUI с конца 2024 — нативные ноды Whisper. Workflow «video → audio → Whisper → SRT» собирается из 4 нод. Идеально для batch-обработки.

С чем часто путают

Whisper и whisper.cpp — Whisper это модель (PyTorch). whisper.cpp — реализация на C++ для CPU/edge.
Whisper и faster-whisper — оригинальный Whisper медленнее. faster-whisper использует CTranslate2 для 4× ускорения.
Whisper-1 и Large-v3 — Whisper-1 это API-имя для OpenAI cloud version (=Large). Large-v3 — самая новая локальная.
Whisper и WhisperX — WhisperX это расширение со speaker diarization (кто что сказал).
Whisper и Distil-Whisper — Distil — distilled-версия, в 6× быстрее, чуть хуже качество.

Частые ошибки и заблуждения

«Whisper точен на 100%». Нет, в среднем 95% на чистом аудио. На шумных записях — 80–90%. Не идеален.
«Поддерживает все языки одинаково». Нет. Английский ~98%, русский 95%, мелкие языки (грузинский, тагальский) — 70–85%.
«Бесплатный = плохо». Качество equivalent коммерческим (Deepgram, AssemblyAI) на большинстве задач.
«Whisper для real-time». Не оптимизирован под streaming. Для real-time — модели Deepgram/Nova-2, Faster-Whisper в streaming-режиме.
«Только English переводы». <|translate|> режим — только в English. На другие языки — Whisper transcribe + LLM translate.

Связанные термины

STT — категория, в которой Whisper — open-source стандарт.
TTS — обратная задача.
OpenAI — разработчик Whisper.
faster-whisper — оптимизированная реализация.
whisper.cpp — CPU/edge версия.
AssemblyAI / Deepgram — коммерческие конкуренты.
WhisperX — расширение с диаризацией.

Частые вопросы

Какую модель выбрать? Для production — large-v3. Для быстрых тестов — medium. Для CPU-only — base через whisper.cpp. Для streaming — tiny или base.

Сколько RAM/VRAM нужно? tiny: 1 GB. base: 1 GB. small: 2 GB. medium: 5 GB. large-v3: 10 GB VRAM.

Whisper для русского — насколько хорош? Очень хорош на чистом аудио (WER ~4-5% для large-v3). На шумном/диалектном — хуже. Стандарт для русских транскрипций open-source.

Можно ли в реальном времени? Не оптимизирован, но возможно с Faster-Whisper streaming-режимом. Latency 1-2 секунды. Для real-time лучше Deepgram Nova.

Есть ли диаризация (кто говорит)? Не в Whisper напрямую. Через WhisperX (Whisper + pyannote-audio).

Whisper в API стоит сколько? $0.006/минута. Час аудио = $0.36. Дешевле, чем многие альтернативы.

Главное

Whisper — открытая модель распознавания речи от OpenAI (сентябрь 2022). 5 размеров от tiny (39M) до large-v3 (1.5B). Поддерживает 99 языков, в том числе русский на ~95% точности. Стандарт open-source STT для 2022–2026. Главные применения: транскрипции, субтитры, дубляж, обработка подкастов. Доступна локально через pip install openai-whisper или faster-whisper (4× быстрее). Через API — $0.006/минута. На RTX 4090 — 30× real-time. Главные альтернативы: Deepgram (для streaming), AssemblyAI (для диаризации), Yandex SpeechKit (для production русского). В ComfyUI — нативные ноды для batch-обработки видео-аудио.

Что дальше:

Этот раздел Все термины: Видео → Изучить тему системно — от базовых понятий до продвинутых. Если вы новичок Начать с основ: что такое AI → Один термин, с которого стоит начать знакомство с темой. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное из 156 статей.