Latency
latency — задержка ответа LLM, главный UX-фактор
Latency — задержка между запросом и ответом LLM. У современных моделей две ключевые метрики: TTFT (Time To First Token) — сколько ждать первого токена, и TPS (Tokens Per Second) — скорость потока после старта. Низкий TTFT — основа хорошего UX чатов; высокий TPS — для длинных ответов. Влияет на выбор модели, провайдера и архитектуры приложения сильнее, чем чистое качество.
Коротко
Коротко. Latency у LLM — это две разные вещи. TTFT (Time To First Token) — сколько секунд от отправки запроса до появления первой буквы ответа. TPS (Tokens Per Second) — насколько быстро дальше идёт поток. Для чата критичен низкий TTFT (пользователь видит, что «оно начало»); для длинных задач — высокий TPS. Стандарт: GPT-4o ~500мс TTFT / 80 TPS, Claude Sonnet ~800мс / 60 TPS, Groq Llama-3 — 30мс / 500+ TPS.
Что это такое
Пользователь нажимает «отправить» в чате. Ждёт… ждёт… через 3 секунды появляется первое слово, дальше текст ползёт по слову в секунду. Раздражает.
В другом чате на той же модели: 200мс — первое слово, дальше поток в 80 токенов/сек, ответ в 300 слов завершается за 5 секунд. Кажется живым.
Разница — latency. И это не одна метрика, а две независимых:
- TTFT (Time To First Token) — задержка до начала ответа. Зависит от: размера модели, длины prompt'а, нагрузки сервера, географии (RTT).
- TPS (Tokens Per Second) — скорость генерации после старта. Зависит от: модели, batch'а, оптимизаций провайдера, железа.
UX чата формируют обе. Высокий TTFT с высоким TPS = «долго думает, потом быстро». Низкий TTFT с низким TPS = «быстро отвечает, медленно пишет».
К 2026-му latency — главный дифференциатор провайдеров на одной и той же модели. Groq, Cerebras, Together AI продают скорость: та же Llama 3, но в 5–10 раз быстрее.
Как это работает
Что происходит между «нажал Enter» и «увидел ответ»:
- Network RTT. Запрос летит к серверу. Москва → Сан-Франциско ~140мс туда + 140мс обратно.
- Tokenization. Сервер режет prompt на токены.
- Prefill phase. Модель «прочитывает» prompt: вычисляет attention над всеми входными токенами. Время ≈ O(длина prompt'а²).
- First token generation. Модель сэмплирует первый токен. Конец TTFT.
- Decode phase. Модель генерирует следующие токены по одному. Скорость = TPS.
- Streaming back. Каждый токен едет обратно по сети, отрисовывается в UI.
Типичные значения на 2026:
| Провайдер · Модель | TTFT | TPS |
|---|---|---|
| GPT-4o | ~500мс | 80 |
| Claude Sonnet 3.5 | ~800мс | 60 |
| Gemini 1.5 Pro | ~700мс | 75 |
| Groq · Llama 3 70B | ~30мс | 500+ |
| Cerebras · Llama 3 405B | ~200мс | 1500+ |
| Together AI · Llama 3.1 8B | ~150мс | 200 |
| Local Ollama · Qwen 7B (RTX 4090) | ~80мс | 100 |
Главный тренд — специализированные inference-провайдеры (Groq, Cerebras, SambaNova) показывают на порядок лучший latency, чем «универсальные» (OpenAI, Anthropic), за счёт hardware-оптимизации.
Пример на практике
Стартап делает голосового AI-ассистента. Пользователь говорит → транскрипция Whisper → LLM → синтез голоса. Critical path:
- STT (Whisper): 200мс.
- LLM (GPT-4o): TTFT 500мс, TPS 80, ответ в 50 токенов = 500 + 50/80×1000 = 1125мс.
- TTS: 300мс на начало синтеза.
Total: 200 + 1125 + 300 = 1625мс от конца речи пользователя до начала ответа. Слишком медленно для естественного диалога (норма — до 500мс).
Оптимизация:
- Streaming TTS — синтез начинается с первого токена LLM, не ждёт весь ответ. Экономия: 800мс.
- Сменить провайдера LLM — Groq Llama-3 70B: TTFT 30мс, TPS 500. Тот же ответ за 30 + 50/500×1000 = 130мс.
- Total после оптимизации: 200 + 130 + 300 (но параллельно с LLM) = ~500мс.
Качество ответа чуть ниже (Llama vs GPT-4o), но UX в 3 раза лучше.
В ComfyUI с LLM-нодами latency тоже важна — особенно для batch-обработки. Если генерируете 100 промптов через локальную Qwen, разница 50 TPS vs 200 TPS = 30 минут vs 7 минут общего времени.
С чем часто путают
- Latency и Throughput — Latency это одиночный запрос. Throughput — суммарное число запросов в секунду для целого сервера.
- TTFT и TPS — TTFT это разовая задержка до старта. TPS — скорость потока. Независимые метрики.
- Latency и Quality — иногда обратно связаны: быстрая модель часто меньше. Но не всегда: оптимизированные inference (Groq) дают и скорость, и качество.
- Network Latency и Model Latency — Network — пинг между клиентом и сервером. Model — время вычислений. Сумма даёт реальный TTFT.
- Latency и Cost — Cost обычно за токены, не за время. Быстрый провайдер может быть дешевле, дороже или равен — отдельный вопрос.
Частые ошибки и заблуждения
- «Большая модель = большая latency». Не всегда. Хорошо оптимизированная 405B на Cerebras быстрее, чем средняя 7B на обычной AWS-инстанции.
- «Низкий TTFT — главное». Зависит от задачи. Для коротких ответов да; для длинных текстов важнее TPS.
- «Streaming решает все проблемы». Streaming улучшает воспринимаемую latency. Реальное время до конца ответа не меняется.
- «Latency константна». Сильно колеблется: ночью быстрее, в пиковые часы — медленнее, разница в 2–3 раза обычна.
- «Локальная модель всегда быстрее». Только если у вас сильное железо. RTX 4090 для 7B — да. Для 70B без quantization — медленнее облачных API.
Связанные термины
- TTFT (Time To First Token) — первая часть latency.
- TPS (Tokens Per Second) — вторая часть.
- Throughput — общая пропускная способность сервера.
- Streaming — техника снижения воспринимаемой latency.
- Inference — общий процесс, в котором измеряется latency.
- Quantization — способ снизить latency через меньшие модели.
- Speculative Decoding — техника ускорения генерации.
Частые вопросы
Где смотреть latency разных провайдеров? artificialanalysis.ai — главный публичный бенчмарк latency и quality. Обновляется регулярно для всех крупных моделей.
Что важнее: TTFT или TPS? Для чата с короткими ответами — TTFT. Для длинных генераций (статьи, код) — TPS. Для голосовых ассистентов — оба критичны.
Как ускорить LLM локально? Quantization (Q4 GGUF вместо FP16) даёт 2–3× ускорение. vLLM или llama.cpp с правильными настройками. Если позволяет железо — speculative decoding.
Почему Groq так быстр? Custom-чипы (LPU — Language Processing Unit), специально под inference Transformers. SRAM-only архитектура без bottleneck'а memory bandwidth.
Latency влияет на качество? Прямо — нет. Косвенно — да: иногда «быстрая» версия модели использует quantization или меньший batch, что слегка снижает качество.
Как измерить latency своего API?
time.perf_counter() до и после: до TTFT — до первого chunk'а в stream, до TPS — между chunk'ами в стабильном диапазоне.
Главное
Latency у LLM — это две метрики: TTFT (задержка до первого токена) и TPS (скорость потока после старта). Для UX чата критичен низкий TTFT — пользователь видит, что «оно отвечает». Для длинных ответов важен TPS. К 2026-му специализированные провайдеры (Groq, Cerebras) дают на порядок лучший latency, чем универсальные (OpenAI, Anthropic), на тех же моделях. Главный приём улучшения воспринимаемой latency — streaming на каждом этапе пайплайна. Для измерения и сравнения провайдеров — artificialanalysis.ai. Latency и quality иногда обратно связаны, но оптимизированный inference (правильный hardware + софт) может дать и то, и другое.