TTS и STT
tts и stt — синтез и распознавание речи
TTS (Text-to-Speech) и STT (Speech-to-Text) — две стороны работы с человеческой речью. TTS превращает текст в озвучку: ElevenLabs, OpenAI TTS, Google, Microsoft. STT превращает речь в текст: Whisper, AssemblyAI, Deepgram, Google Cloud STT. Базовые компоненты любого голосового AI: ассистенты, транскрипции, дубляж, accessibility.
Коротко
Коротко. TTS (Text-to-Speech) генерирует речь из текста. STT (Speech-to-Text) делает обратное — извлекает текст из аудио. Это две базовые операции для любого голосового AI. Топ TTS в 2026: ElevenLabs (тембры), OpenAI TTS-1 ($15/1M chars), Google WaveNet. Топ STT: Whisper (открытый), AssemblyAI, Deepgram. Часто используются вместе: STT → LLM → TTS = голосовой ассистент.
Что это такое
Голосовой ассистент Алиса/Siri/Alexa внутри устроен так:
- STT: микрофон → аудио → Whisper-like модель → текст «Какая погода завтра».
- LLM: обработка запроса → ответ «Завтра в Москве +12, дождь».
- TTS: текст → аудио → колонка озвучивает.
Без STT и TTS никакой голосовой AI невозможен. Это base layer для:
- Голосовых ассистентов: ChatGPT Voice, Alexa, Siri, Алиса.
- Транскрипции: Otter, Fireflies, Granola — встречи в текст.
- Аудиокниг: превращают book в озвучку.
- Subtitle generation: автоматические субтитры YouTube/Zoom.
- Accessibility: для слабовидящих/слабослышащих.
- Дубляжа: аудио в одном языке → текст → перевод → TTS другого голоса.
К 2026-му качество TTS — на уровне «не отличить от человека» в большинстве сценариев. STT — точность 95%+ на чистых записях.
Как работает TTS
Современный TTS — это neural network с двумя компонентами:
- Acoustic model. Текст → mel-spectrogram (визуальное представление звука).
- Vocoder. Mel-spectrogram → реальный waveform (аудио-сэмплы).
Архитектуры:
- Tacotron 2 + WaveNet — классика 2018-го.
- VITS — end-to-end, без отдельного vocoder'а.
- XTTS-v2 — multilingual, voice cloning.
- F5-TTS — flow matching, новейший подход 2024.
- OpenAI TTS-1 — closed, очень качественный.
Главные параметры:
- Voice — какой голос использовать.
- Speed (0.5–2.0) — скорость речи.
- Pitch — высота тона.
- Emotion — нейтральный, радостный, грустный (поддерживается не всеми).
Как работает STT
STT тоже neural network, но в обратную сторону:
- Audio → mel-spectrogram. То же визуальное представление.
- Encoder-decoder transformer. Encoder читает spectrogram, decoder генерирует токены текста.
Главные модели:
- Whisper (OpenAI) — открытая, multilingual, на 99% задач достаточная.
- AssemblyAI — топ для английского, real-time, спикер-диаризация.
- Deepgram — быстрый, для real-time приложений.
- Google Cloud STT — для production, поддерживает 125+ языков.
- Nemo (NVIDIA) — open-source, специализирован под русский.
Дополнительные фичи:
- Speaker Diarization — кто что сказал в multi-speaker записи.
- Punctuation — расстановка пунктуации (Whisper делает автоматически).
- Timestamps — точные таймкоды каждого слова.
- Translation — Whisper умеет автоматически переводить на английский.
Пример на практике
Подкастер записывает интервью на 1 час. Хочет:
- Транскрипцию для блога.
- Субтитры для YouTube.
- Озвученное summary на английском (для глобальной аудитории).
STT-фаза (Whisper):
whisper interview.mp3 --model large-v3 --language ru --output_format srt
5 минут на RTX 4090 → файл interview.srt с таймкодами и текстом. Точность ~96%, лёгкая редактура — 30 минут.
LLM-фаза (Claude):
summary = claude.messages.create(
messages=[{"role": "user", "content": f"Make 5-min summary of this transcript in English: {transcript}"}]
)
Получает 5-минутный summary на английском.
TTS-фаза (ElevenLabs):
audio = elevenlabs.generate(
text=summary,
voice="Adam", # дефолтный голос
model="eleven_multilingual_v2"
)
audio.save("summary_en.mp3")
5-минутное аудио на английском. Готово.
Total time: 1 час подготовки vs 8 часов ручной работы. Cost: ~$5 (Whisper free, Claude $0.50, ElevenLabs $4).
В ComfyUI с конца 2024 — ноды для Whisper и XTTS. Workflow «video → audio → STT → LLM → TTS → audio → mux back» собирается из 8 нод.
С чем часто путают
- TTS и STT — TTS текст → аудио. STT аудио → текст. Противоположные направления.
- STT и ASR — Automatic Speech Recognition — академический термин для STT. Синонимы.
- TTS и Voice Cloning — Voice Cloning это специальный случай TTS, использующий конкретный голос-сэмпл.
- Whisper и AssemblyAI — оба STT. Whisper open-source, AssemblyAI коммерческий с extra-фичами (диаризация, sentiment).
- TTS и Music Generation — Music Gen генерирует музыку. TTS — речь.
Частые ошибки и заблуждения
- «Whisper — лучший STT для всего». На английском часто да. На русском — Nemo Russian или Yandex SpeechKit могут быть лучше.
- «TTS звучит роботизированно». Раньше — да. К 2026-му современные TTS почти неотличимы от живого голоса.
- «STT работает в шуме». Хуже на 30–50%. На записях с шумом нужен denoise pre-processing.
- «Бесплатные TTS = плохое качество». Whisper, edge-TTS — бесплатно, нормальное качество для большинства задач.
- «Real-time = простая задача». Сложная. Для голосового ассистента нужен low-latency STT (Deepgram) + low-latency TTS (ElevenLabs Turbo) + потоковый LLM.
Связанные термины
- Voice Cloning — частный случай TTS с конкретным голосом.
- Whisper — главный open-source STT.
- ElevenLabs / OpenAI TTS — главные коммерческие TTS.
- AssemblyAI / Deepgram — главные коммерческие STT.
- ASR (Automatic Speech Recognition) — синоним STT.
- Lip Sync — связанный с TTS компонент дубляжа видео.
- Mel-spectrogram — внутренний формат и для TTS, и для STT.
Частые вопросы
Какой STT лучше для русского? Whisper large-v3 — топ универсальный (95% точности). Nemo Russian — иногда лучше (узко специализирован). Yandex SpeechKit — для production-уровня.
Какой TTS лучше для русского? ElevenLabs multilingual v2 — топ. Yandex SpeechKit — хороший локальный коммерческий. SileroTTS — open-source, бесплатный.
Можно ли real-time? Да: Deepgram + ElevenLabs Turbo. Latency ~300мс на STT + 200мс на TTS. Для голосовых ассистентов — приемлемо.
Сколько стоит Whisper? Open-source бесплатно. OpenAI API: $0.006/минута. Самостоятельный запуск на RTX 4090: 30× быстрее реального времени.
Поддержка эмоций в TTS? ElevenLabs v2.5 — нативно. OpenAI TTS-1 — частично через prompt. F5-TTS — экспериментально.
STT для видео-субтитров? Whisper output SRT — стандартный формат. Импортируется в YouTube, Premiere, DaVinci. Точность 95%+ для чистого аудио.
Главное
TTS (Text-to-Speech) — генерация речи из текста. STT (Speech-to-Text) — обратное: распознавание речи. Это базовые операции для любого голосового AI: ассистенты, транскрипции, дубляж, subtitles. К 2026-му качество — TTS как живой человек, STT 95%+ точности на чистых записях. Топ TTS: ElevenLabs (voice cloning), OpenAI TTS-1, F5-TTS open-source. Топ STT: Whisper (open), AssemblyAI, Deepgram. Стандартный pipeline голосового ассистента: STT → LLM → TTS. Для русского — Whisper large-v3, ElevenLabs multilingual, Yandex SpeechKit, Silero. ComfyUI поддерживает обе через ноды Whisper и XTTS. Главный workflow для подкастеров: STT → LLM-summary → TTS = глобализация контента за час.