TTS и STT

tts и stt — синтез и распознавание речи

Раздел
Видео
Обновлено
18.05.26

TTS (Text-to-Speech) и STT (Speech-to-Text) — две стороны работы с человеческой речью. TTS превращает текст в озвучку: ElevenLabs, OpenAI TTS, Google, Microsoft. STT превращает речь в текст: Whisper, AssemblyAI, Deepgram, Google Cloud STT. Базовые компоненты любого голосового AI: ассистенты, транскрипции, дубляж, accessibility.

Коротко

Коротко. TTS (Text-to-Speech) генерирует речь из текста. STT (Speech-to-Text) делает обратное — извлекает текст из аудио. Это две базовые операции для любого голосового AI. Топ TTS в 2026: ElevenLabs (тембры), OpenAI TTS-1 ($15/1M chars), Google WaveNet. Топ STT: Whisper (открытый), AssemblyAI, Deepgram. Часто используются вместе: STT → LLM → TTS = голосовой ассистент.

Что это такое

Голосовой ассистент Алиса/Siri/Alexa внутри устроен так:

  1. STT: микрофон → аудио → Whisper-like модель → текст «Какая погода завтра».
  2. LLM: обработка запроса → ответ «Завтра в Москве +12, дождь».
  3. TTS: текст → аудио → колонка озвучивает.

Без STT и TTS никакой голосовой AI невозможен. Это base layer для:

  • Голосовых ассистентов: ChatGPT Voice, Alexa, Siri, Алиса.
  • Транскрипции: Otter, Fireflies, Granola — встречи в текст.
  • Аудиокниг: превращают book в озвучку.
  • Subtitle generation: автоматические субтитры YouTube/Zoom.
  • Accessibility: для слабовидящих/слабослышащих.
  • Дубляжа: аудио в одном языке → текст → перевод → TTS другого голоса.

К 2026-му качество TTS — на уровне «не отличить от человека» в большинстве сценариев. STT — точность 95%+ на чистых записях.

Как работает TTS

Современный TTS — это neural network с двумя компонентами:

  1. Acoustic model. Текст → mel-spectrogram (визуальное представление звука).
  2. Vocoder. Mel-spectrogram → реальный waveform (аудио-сэмплы).

Архитектуры:

  • Tacotron 2 + WaveNet — классика 2018-го.
  • VITS — end-to-end, без отдельного vocoder'а.
  • XTTS-v2 — multilingual, voice cloning.
  • F5-TTS — flow matching, новейший подход 2024.
  • OpenAI TTS-1 — closed, очень качественный.

Главные параметры:

  • Voice — какой голос использовать.
  • Speed (0.5–2.0) — скорость речи.
  • Pitch — высота тона.
  • Emotion — нейтральный, радостный, грустный (поддерживается не всеми).

Как работает STT

STT тоже neural network, но в обратную сторону:

  1. Audio → mel-spectrogram. То же визуальное представление.
  2. Encoder-decoder transformer. Encoder читает spectrogram, decoder генерирует токены текста.

Главные модели:

  • Whisper (OpenAI) — открытая, multilingual, на 99% задач достаточная.
  • AssemblyAI — топ для английского, real-time, спикер-диаризация.
  • Deepgram — быстрый, для real-time приложений.
  • Google Cloud STT — для production, поддерживает 125+ языков.
  • Nemo (NVIDIA) — open-source, специализирован под русский.

Дополнительные фичи:

  • Speaker Diarization — кто что сказал в multi-speaker записи.
  • Punctuation — расстановка пунктуации (Whisper делает автоматически).
  • Timestamps — точные таймкоды каждого слова.
  • Translation — Whisper умеет автоматически переводить на английский.

Пример на практике

Подкастер записывает интервью на 1 час. Хочет:

  • Транскрипцию для блога.
  • Субтитры для YouTube.
  • Озвученное summary на английском (для глобальной аудитории).

STT-фаза (Whisper):

whisper interview.mp3 --model large-v3 --language ru --output_format srt

5 минут на RTX 4090 → файл interview.srt с таймкодами и текстом. Точность ~96%, лёгкая редактура — 30 минут.

LLM-фаза (Claude):

summary = claude.messages.create(
    messages=[{"role": "user", "content": f"Make 5-min summary of this transcript in English: {transcript}"}]
)

Получает 5-минутный summary на английском.

TTS-фаза (ElevenLabs):

audio = elevenlabs.generate(
    text=summary,
    voice="Adam",  # дефолтный голос
    model="eleven_multilingual_v2"
)
audio.save("summary_en.mp3")

5-минутное аудио на английском. Готово.

Total time: 1 час подготовки vs 8 часов ручной работы. Cost: ~$5 (Whisper free, Claude $0.50, ElevenLabs $4).

В ComfyUI с конца 2024 — ноды для Whisper и XTTS. Workflow «video → audio → STT → LLM → TTS → audio → mux back» собирается из 8 нод.

С чем часто путают

  • TTS и STT — TTS текст → аудио. STT аудио → текст. Противоположные направления.
  • STT и ASR — Automatic Speech Recognition — академический термин для STT. Синонимы.
  • TTS и Voice Cloning — Voice Cloning это специальный случай TTS, использующий конкретный голос-сэмпл.
  • Whisper и AssemblyAI — оба STT. Whisper open-source, AssemblyAI коммерческий с extra-фичами (диаризация, sentiment).
  • TTS и Music Generation — Music Gen генерирует музыку. TTS — речь.

Частые ошибки и заблуждения

  • «Whisper — лучший STT для всего». На английском часто да. На русском — Nemo Russian или Yandex SpeechKit могут быть лучше.
  • «TTS звучит роботизированно». Раньше — да. К 2026-му современные TTS почти неотличимы от живого голоса.
  • «STT работает в шуме». Хуже на 30–50%. На записях с шумом нужен denoise pre-processing.
  • «Бесплатные TTS = плохое качество». Whisper, edge-TTS — бесплатно, нормальное качество для большинства задач.
  • «Real-time = простая задача». Сложная. Для голосового ассистента нужен low-latency STT (Deepgram) + low-latency TTS (ElevenLabs Turbo) + потоковый LLM.

Связанные термины

  • Voice Cloning — частный случай TTS с конкретным голосом.
  • Whisper — главный open-source STT.
  • ElevenLabs / OpenAI TTS — главные коммерческие TTS.
  • AssemblyAI / Deepgram — главные коммерческие STT.
  • ASR (Automatic Speech Recognition) — синоним STT.
  • Lip Sync — связанный с TTS компонент дубляжа видео.
  • Mel-spectrogram — внутренний формат и для TTS, и для STT.

Частые вопросы

Какой STT лучше для русского? Whisper large-v3 — топ универсальный (95% точности). Nemo Russian — иногда лучше (узко специализирован). Yandex SpeechKit — для production-уровня.

Какой TTS лучше для русского? ElevenLabs multilingual v2 — топ. Yandex SpeechKit — хороший локальный коммерческий. SileroTTS — open-source, бесплатный.

Можно ли real-time? Да: Deepgram + ElevenLabs Turbo. Latency ~300мс на STT + 200мс на TTS. Для голосовых ассистентов — приемлемо.

Сколько стоит Whisper? Open-source бесплатно. OpenAI API: $0.006/минута. Самостоятельный запуск на RTX 4090: 30× быстрее реального времени.

Поддержка эмоций в TTS? ElevenLabs v2.5 — нативно. OpenAI TTS-1 — частично через prompt. F5-TTS — экспериментально.

STT для видео-субтитров? Whisper output SRT — стандартный формат. Импортируется в YouTube, Premiere, DaVinci. Точность 95%+ для чистого аудио.

Главное

TTS (Text-to-Speech) — генерация речи из текста. STT (Speech-to-Text) — обратное: распознавание речи. Это базовые операции для любого голосового AI: ассистенты, транскрипции, дубляж, subtitles. К 2026-му качество — TTS как живой человек, STT 95%+ точности на чистых записях. Топ TTS: ElevenLabs (voice cloning), OpenAI TTS-1, F5-TTS open-source. Топ STT: Whisper (open), AssemblyAI, Deepgram. Стандартный pipeline голосового ассистента: STT → LLM → TTS. Для русского — Whisper large-v3, ElevenLabs multilingual, Yandex SpeechKit, Silero. ComfyUI поддерживает обе через ноды Whisper и XTTS. Главный workflow для подкастеров: STT → LLM-summary → TTS = глобализация контента за час.