Whisper
whisper — открытая модель распознавания речи от OpenAI
Whisper — открытая модель распознавания речи (STT) от OpenAI, выпущена в сентябре 2022. Поддерживает 99 языков, включая русский на отличном уровне. Размеры от tiny (39M параметров) до large-v3 (1.5B). Стандарт open-source для транскрипций, субтитров, дубляжа. Локально на RTX 4090 — 30× быстрее реального времени. Через OpenAI API — $0.006/минута.
Коротко
Коротко. Whisper — открытая модель распознавания речи от OpenAI. Сентябрь 2022, 5 размеров от tiny до large-v3. Поддерживает 99 языков, в том числе русский (точность ~95%+ на чистых записях). Multilingual transcription + translation в одной модели. Стандарт для open-source STT в 2022–2026. Доступна локально (Python pip install) или через OpenAI API ($0.006/минута). На RTX 4090 — 30× real-time.
Что это такое
Сентябрь 2022. OpenAI публикует Whisper — модель STT, обученную на 680 000 часах разнообразного аудио из интернета. Сразу выпускают открытыми все веса, MIT-лицензия. Это был подарок индустрии — раньше топ-STT был закрыт за подписками Google, Microsoft, AWS.
Сообщество в шоке: Whisper Large качеством сравним с коммерческими, но бесплатный. Через месяц появились whisper.cpp (CPU-версия), faster-whisper (10× быстрее через CTranslate2), интеграции в Audacity, OBS, любые open-source проекты.
К 2026-му Whisper — индустриальный стандарт open-source STT:
- YouTube subtitles — автоматические субтитры на основе Whisper.
- Видеомонтажные приложения: DaVinci Resolve, CapCut, Descript.
- Транскрипционные сервисы: Otter, Fireflies — Whisper под капотом.
- Подкастеры: обработка episodes для блогов, SEO.
- Локализация: транскрипция → перевод → дубляж.
Размеры моделей:
| Модель | Параметры | Скорость | Качество (RU WER) |
|---|---|---|---|
| tiny | 39M | очень быстро | 22% |
| base | 74M | быстро | 14% |
| small | 244M | средне | 9% |
| medium | 769M | медленно | 6% |
| large-v3 | 1.5B | медленнее | 4% |
WER (Word Error Rate) — процент ошибок. Для production обычно medium или large-v3.
Как это работает
Whisper — encoder-decoder transformer, обученный одновременно на двух задачах:
- Transcription: аудио → текст на исходном языке.
- Translation: аудио на любом языке → текст на английском.
Pipeline:
- Audio → mel-spectrogram. Стандартное преобразование, 80-канальная репрезентация.
- Encoder. Transformer обрабатывает spectrogram, выдаёт latent representation.
- Decoder. Generates text токены, conditioned на encoder + специальные task tokens.
Special tokens задают режим:
<|en|>— английский.<|ru|>— русский.<|transcribe|>— транскрибировать.<|translate|>— переводить на английский.<|notimestamps|>— без таймкодов.<|0.00|>–<|30.00|>— таймкоды каждой фразы.
Пример на практике
Видеомонтажёр обрабатывает 50 эпизодов подкаста (по часу каждый) для генерации субтитров и блог-постов.
Через Python + faster-whisper (open-source, локально):
from faster_whisper import WhisperModel
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
for ep in range(1, 51):
audio = f"podcast_ep_{ep}.mp3"
# transcribe
segments, info = model.transcribe(
audio,
language="ru",
beam_size=5,
word_timestamps=True
)
# save SRT
with open(f"podcast_ep_{ep}.srt", "w") as f:
for i, seg in enumerate(segments, 1):
f.write(f"{i}\n")
f.write(f"{format_time(seg.start)} --> {format_time(seg.end)}\n")
f.write(f"{seg.text}\n\n")
На RTX 4090 — 50 часов аудио обрабатываются за ~1.5 часа (30× real-time). 50 SRT-файлов готовы. Точность — ~96% на чистом подкастном аудио.
В ComfyUI с конца 2024 — нативные ноды Whisper. Workflow «video → audio → Whisper → SRT» собирается из 4 нод. Идеально для batch-обработки.
С чем часто путают
- Whisper и whisper.cpp — Whisper это модель (PyTorch). whisper.cpp — реализация на C++ для CPU/edge.
- Whisper и faster-whisper — оригинальный Whisper медленнее. faster-whisper использует CTranslate2 для 4× ускорения.
- Whisper-1 и Large-v3 — Whisper-1 это API-имя для OpenAI cloud version (=Large). Large-v3 — самая новая локальная.
- Whisper и WhisperX — WhisperX это расширение со speaker diarization (кто что сказал).
- Whisper и Distil-Whisper — Distil — distilled-версия, в 6× быстрее, чуть хуже качество.
Частые ошибки и заблуждения
- «Whisper точен на 100%». Нет, в среднем 95% на чистом аудио. На шумных записях — 80–90%. Не идеален.
- «Поддерживает все языки одинаково». Нет. Английский ~98%, русский 95%, мелкие языки (грузинский, тагальский) — 70–85%.
- «Бесплатный = плохо». Качество equivalent коммерческим (Deepgram, AssemblyAI) на большинстве задач.
- «Whisper для real-time». Не оптимизирован под streaming. Для real-time — модели Deepgram/Nova-2, Faster-Whisper в streaming-режиме.
- «Только English переводы».
<|translate|>режим — только в English. На другие языки — Whisper transcribe + LLM translate.
Связанные термины
- STT — категория, в которой Whisper — open-source стандарт.
- TTS — обратная задача.
- OpenAI — разработчик Whisper.
- faster-whisper — оптимизированная реализация.
- whisper.cpp — CPU/edge версия.
- AssemblyAI / Deepgram — коммерческие конкуренты.
- WhisperX — расширение с диаризацией.
Частые вопросы
Какую модель выбрать?
Для production — large-v3. Для быстрых тестов — medium. Для CPU-only — base через whisper.cpp. Для streaming — tiny или base.
Сколько RAM/VRAM нужно? tiny: 1 GB. base: 1 GB. small: 2 GB. medium: 5 GB. large-v3: 10 GB VRAM.
Whisper для русского — насколько хорош? Очень хорош на чистом аудио (WER ~4-5% для large-v3). На шумном/диалектном — хуже. Стандарт для русских транскрипций open-source.
Можно ли в реальном времени? Не оптимизирован, но возможно с Faster-Whisper streaming-режимом. Latency 1-2 секунды. Для real-time лучше Deepgram Nova.
Есть ли диаризация (кто говорит)? Не в Whisper напрямую. Через WhisperX (Whisper + pyannote-audio).
Whisper в API стоит сколько? $0.006/минута. Час аудио = $0.36. Дешевле, чем многие альтернативы.
Главное
Whisper — открытая модель распознавания речи от OpenAI (сентябрь 2022). 5 размеров от tiny (39M) до large-v3 (1.5B). Поддерживает 99 языков, в том числе русский на ~95% точности. Стандарт open-source STT для 2022–2026. Главные применения: транскрипции, субтитры, дубляж, обработка подкастов. Доступна локально через pip install openai-whisper или faster-whisper (4× быстрее). Через API — $0.006/минута. На RTX 4090 — 30× real-time. Главные альтернативы: Deepgram (для streaming), AssemblyAI (для диаризации), Yandex SpeechKit (для production русского). В ComfyUI — нативные ноды для batch-обработки видео-аудио.