TTS и STT

tts и stt — синтез и распознавание речи

Раздел: Видео
Обновлено: 18.05.26

TTS (Text-to-Speech) и STT (Speech-to-Text) — две стороны работы с человеческой речью. TTS превращает текст в озвучку: ElevenLabs, OpenAI TTS, Google, Microsoft. STT превращает речь в текст: Whisper, AssemblyAI, Deepgram, Google Cloud STT. Базовые компоненты любого голосового AI: ассистенты, транскрипции, дубляж, accessibility.

Коротко

Коротко. TTS (Text-to-Speech) генерирует речь из текста. STT (Speech-to-Text) делает обратное — извлекает текст из аудио. Это две базовые операции для любого голосового AI. Топ TTS в 2026: ElevenLabs (тембры), OpenAI TTS-1 ($15/1M chars), Google WaveNet. Топ STT: Whisper (открытый), AssemblyAI, Deepgram. Часто используются вместе: STT → LLM → TTS = голосовой ассистент.

Что это такое

Голосовой ассистент Алиса/Siri/Alexa внутри устроен так:

STT: микрофон → аудио → Whisper-like модель → текст «Какая погода завтра».
LLM: обработка запроса → ответ «Завтра в Москве +12, дождь».
TTS: текст → аудио → колонка озвучивает.

Без STT и TTS никакой голосовой AI невозможен. Это base layer для:

Голосовых ассистентов: ChatGPT Voice, Alexa, Siri, Алиса.
Транскрипции: Otter, Fireflies, Granola — встречи в текст.
Аудиокниг: превращают book в озвучку.
Subtitle generation: автоматические субтитры YouTube/Zoom.
Accessibility: для слабовидящих/слабослышащих.
Дубляжа: аудио в одном языке → текст → перевод → TTS другого голоса.

К 2026-му качество TTS — на уровне «не отличить от человека» в большинстве сценариев. STT — точность 95%+ на чистых записях.

Как работает TTS

Современный TTS — это neural network с двумя компонентами:

Acoustic model. Текст → mel-spectrogram (визуальное представление звука).
Vocoder. Mel-spectrogram → реальный waveform (аудио-сэмплы).

Архитектуры:

Tacotron 2 + WaveNet — классика 2018-го.
VITS — end-to-end, без отдельного vocoder'а.
XTTS-v2 — multilingual, voice cloning.
F5-TTS — flow matching, новейший подход 2024.
OpenAI TTS-1 — closed, очень качественный.

Главные параметры:

Voice — какой голос использовать.
Speed (0.5–2.0) — скорость речи.
Pitch — высота тона.
Emotion — нейтральный, радостный, грустный (поддерживается не всеми).

Как работает STT

STT тоже neural network, но в обратную сторону:

Audio → mel-spectrogram. То же визуальное представление.
Encoder-decoder transformer. Encoder читает spectrogram, decoder генерирует токены текста.

Главные модели:

Whisper (OpenAI) — открытая, multilingual, на 99% задач достаточная.
AssemblyAI — топ для английского, real-time, спикер-диаризация.
Deepgram — быстрый, для real-time приложений.
Google Cloud STT — для production, поддерживает 125+ языков.
Nemo (NVIDIA) — open-source, специализирован под русский.

Дополнительные фичи:

Speaker Diarization — кто что сказал в multi-speaker записи.
Punctuation — расстановка пунктуации (Whisper делает автоматически).
Timestamps — точные таймкоды каждого слова.
Translation — Whisper умеет автоматически переводить на английский.

Пример на практике

Подкастер записывает интервью на 1 час. Хочет:

Транскрипцию для блога.
Субтитры для YouTube.
Озвученное summary на английском (для глобальной аудитории).

STT-фаза (Whisper):

whisper interview.mp3 --model large-v3 --language ru --output_format srt

5 минут на RTX 4090 → файл interview.srt с таймкодами и текстом. Точность ~96%, лёгкая редактура — 30 минут.

LLM-фаза (Claude):

summary = claude.messages.create(
    messages=[{"role": "user", "content": f"Make 5-min summary of this transcript in English: {transcript}"}]
)

Получает 5-минутный summary на английском.

TTS-фаза (ElevenLabs):

audio = elevenlabs.generate(
    text=summary,
    voice="Adam",  # дефолтный голос
    model="eleven_multilingual_v2"
)
audio.save("summary_en.mp3")

5-минутное аудио на английском. Готово.

Total time: 1 час подготовки vs 8 часов ручной работы. Cost: ~$5 (Whisper free, Claude $0.50, ElevenLabs $4).

В ComfyUI с конца 2024 — ноды для Whisper и XTTS. Workflow «video → audio → STT → LLM → TTS → audio → mux back» собирается из 8 нод.

С чем часто путают

TTS и STT — TTS текст → аудио. STT аудио → текст. Противоположные направления.
STT и ASR — Automatic Speech Recognition — академический термин для STT. Синонимы.
TTS и Voice Cloning — Voice Cloning это специальный случай TTS, использующий конкретный голос-сэмпл.
Whisper и AssemblyAI — оба STT. Whisper open-source, AssemblyAI коммерческий с extra-фичами (диаризация, sentiment).
TTS и Music Generation — Music Gen генерирует музыку. TTS — речь.

Частые ошибки и заблуждения

«Whisper — лучший STT для всего». На английском часто да. На русском — Nemo Russian или Yandex SpeechKit могут быть лучше.
«TTS звучит роботизированно». Раньше — да. К 2026-му современные TTS почти неотличимы от живого голоса.
«STT работает в шуме». Хуже на 30–50%. На записях с шумом нужен denoise pre-processing.
«Бесплатные TTS = плохое качество». Whisper, edge-TTS — бесплатно, нормальное качество для большинства задач.
«Real-time = простая задача». Сложная. Для голосового ассистента нужен low-latency STT (Deepgram) + low-latency TTS (ElevenLabs Turbo) + потоковый LLM.

Связанные термины

Voice Cloning — частный случай TTS с конкретным голосом.
Whisper — главный open-source STT.
ElevenLabs / OpenAI TTS — главные коммерческие TTS.
AssemblyAI / Deepgram — главные коммерческие STT.
ASR (Automatic Speech Recognition) — синоним STT.
Lip Sync — связанный с TTS компонент дубляжа видео.
Mel-spectrogram — внутренний формат и для TTS, и для STT.

Частые вопросы

Какой STT лучше для русского? Whisper large-v3 — топ универсальный (95% точности). Nemo Russian — иногда лучше (узко специализирован). Yandex SpeechKit — для production-уровня.

Какой TTS лучше для русского? ElevenLabs multilingual v2 — топ. Yandex SpeechKit — хороший локальный коммерческий. SileroTTS — open-source, бесплатный.

Можно ли real-time? Да: Deepgram + ElevenLabs Turbo. Latency ~300мс на STT + 200мс на TTS. Для голосовых ассистентов — приемлемо.

Сколько стоит Whisper? Open-source бесплатно. OpenAI API: $0.006/минута. Самостоятельный запуск на RTX 4090: 30× быстрее реального времени.

Поддержка эмоций в TTS? ElevenLabs v2.5 — нативно. OpenAI TTS-1 — частично через prompt. F5-TTS — экспериментально.

STT для видео-субтитров? Whisper output SRT — стандартный формат. Импортируется в YouTube, Premiere, DaVinci. Точность 95%+ для чистого аудио.

Главное

TTS (Text-to-Speech) — генерация речи из текста. STT (Speech-to-Text) — обратное: распознавание речи. Это базовые операции для любого голосового AI: ассистенты, транскрипции, дубляж, subtitles. К 2026-му качество — TTS как живой человек, STT 95%+ точности на чистых записях. Топ TTS: ElevenLabs (voice cloning), OpenAI TTS-1, F5-TTS open-source. Топ STT: Whisper (open), AssemblyAI, Deepgram. Стандартный pipeline голосового ассистента: STT → LLM → TTS. Для русского — Whisper large-v3, ElevenLabs multilingual, Yandex SpeechKit, Silero. ComfyUI поддерживает обе через ноды Whisper и XTTS. Главный workflow для подкастеров: STT → LLM-summary → TTS = глобализация контента за час.

Что дальше:

Этот раздел Все термины: Видео → Изучить тему системно — от базовых понятий до продвинутых. Если вы новичок Начать с основ: что такое AI → Один термин, с которого стоит начать знакомство с темой. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное из 156 статей.