Latency

Q: Как измерить latency своего API?

time.perf_counter() до и после: до TTFT — до первого chunk'а в stream, до TPS — между chunk'ами в стабильном диапазоне.

latency — задержка ответа LLM, главный UX-фактор

Раздел: Языковые модели
Обновлено: 18.05.26

Latency — задержка между запросом и ответом LLM. У современных моделей две ключевые метрики: TTFT (Time To First Token) — сколько ждать первого токена, и TPS (Tokens Per Second) — скорость потока после старта. Низкий TTFT — основа хорошего UX чатов; высокий TPS — для длинных ответов. Влияет на выбор модели, провайдера и архитектуры приложения сильнее, чем чистое качество.

Коротко

Коротко. Latency у LLM — это две разные вещи. TTFT (Time To First Token) — сколько секунд от отправки запроса до появления первой буквы ответа. TPS (Tokens Per Second) — насколько быстро дальше идёт поток. Для чата критичен низкий TTFT (пользователь видит, что «оно начало»); для длинных задач — высокий TPS. Стандарт: GPT-4o ~500мс TTFT / 80 TPS, Claude Sonnet ~800мс / 60 TPS, Groq Llama-3 — 30мс / 500+ TPS.

Что это такое

Пользователь нажимает «отправить» в чате. Ждёт… ждёт… через 3 секунды появляется первое слово, дальше текст ползёт по слову в секунду. Раздражает.

В другом чате на той же модели: 200мс — первое слово, дальше поток в 80 токенов/сек, ответ в 300 слов завершается за 5 секунд. Кажется живым.

Разница — latency. И это не одна метрика, а две независимых:

TTFT (Time To First Token) — задержка до начала ответа. Зависит от: размера модели, длины prompt'а, нагрузки сервера, географии (RTT).
TPS (Tokens Per Second) — скорость генерации после старта. Зависит от: модели, batch'а, оптимизаций провайдера, железа.

UX чата формируют обе. Высокий TTFT с высоким TPS = «долго думает, потом быстро». Низкий TTFT с низким TPS = «быстро отвечает, медленно пишет».

К 2026-му latency — главный дифференциатор провайдеров на одной и той же модели. Groq, Cerebras, Together AI продают скорость: та же Llama 3, но в 5–10 раз быстрее.

Как это работает

Что происходит между «нажал Enter» и «увидел ответ»:

Network RTT. Запрос летит к серверу. Москва → Сан-Франциско ~140мс туда + 140мс обратно.
Tokenization. Сервер режет prompt на токены.
Prefill phase. Модель «прочитывает» prompt: вычисляет attention над всеми входными токенами. Время ≈ O(длина prompt'а²).
First token generation. Модель сэмплирует первый токен. Конец TTFT.
Decode phase. Модель генерирует следующие токены по одному. Скорость = TPS.
Streaming back. Каждый токен едет обратно по сети, отрисовывается в UI.

Типичные значения на 2026:

Провайдер · Модель	TTFT	TPS
GPT-4o	~500мс	80
Claude Sonnet 3.5	~800мс	60
Gemini 1.5 Pro	~700мс	75
Groq · Llama 3 70B	~30мс	500+
Cerebras · Llama 3 405B	~200мс	1500+
Together AI · Llama 3.1 8B	~150мс	200
Local Ollama · Qwen 7B (RTX 4090)	~80мс	100

Главный тренд — специализированные inference-провайдеры (Groq, Cerebras, SambaNova) показывают на порядок лучший latency, чем «универсальные» (OpenAI, Anthropic), за счёт hardware-оптимизации.

Пример на практике

Стартап делает голосового AI-ассистента. Пользователь говорит → транскрипция Whisper → LLM → синтез голоса. Critical path:

STT (Whisper): 200мс.
LLM (GPT-4o): TTFT 500мс, TPS 80, ответ в 50 токенов = 500 + 50/80×1000 = 1125мс.
TTS: 300мс на начало синтеза.

Total: 200 + 1125 + 300 = 1625мс от конца речи пользователя до начала ответа. Слишком медленно для естественного диалога (норма — до 500мс).

Оптимизация:

Streaming TTS — синтез начинается с первого токена LLM, не ждёт весь ответ. Экономия: 800мс.
Сменить провайдера LLM — Groq Llama-3 70B: TTFT 30мс, TPS 500. Тот же ответ за 30 + 50/500×1000 = 130мс.
Total после оптимизации: 200 + 130 + 300 (но параллельно с LLM) = ~500мс.

Качество ответа чуть ниже (Llama vs GPT-4o), но UX в 3 раза лучше.

В ComfyUI с LLM-нодами latency тоже важна — особенно для batch-обработки. Если генерируете 100 промптов через локальную Qwen, разница 50 TPS vs 200 TPS = 30 минут vs 7 минут общего времени.

С чем часто путают

Latency и Throughput — Latency это одиночный запрос. Throughput — суммарное число запросов в секунду для целого сервера.
TTFT и TPS — TTFT это разовая задержка до старта. TPS — скорость потока. Независимые метрики.
Latency и Quality — иногда обратно связаны: быстрая модель часто меньше. Но не всегда: оптимизированные inference (Groq) дают и скорость, и качество.
Network Latency и Model Latency — Network — пинг между клиентом и сервером. Model — время вычислений. Сумма даёт реальный TTFT.
Latency и Cost — Cost обычно за токены, не за время. Быстрый провайдер может быть дешевле, дороже или равен — отдельный вопрос.

Частые ошибки и заблуждения

«Большая модель = большая latency». Не всегда. Хорошо оптимизированная 405B на Cerebras быстрее, чем средняя 7B на обычной AWS-инстанции.
«Низкий TTFT — главное». Зависит от задачи. Для коротких ответов да; для длинных текстов важнее TPS.
«Streaming решает все проблемы». Streaming улучшает воспринимаемую latency. Реальное время до конца ответа не меняется.
«Latency константна». Сильно колеблется: ночью быстрее, в пиковые часы — медленнее, разница в 2–3 раза обычна.
«Локальная модель всегда быстрее». Только если у вас сильное железо. RTX 4090 для 7B — да. Для 70B без quantization — медленнее облачных API.

Связанные термины

TTFT (Time To First Token) — первая часть latency.
TPS (Tokens Per Second) — вторая часть.
Throughput — общая пропускная способность сервера.
Streaming — техника снижения воспринимаемой latency.
Inference — общий процесс, в котором измеряется latency.
Quantization — способ снизить latency через меньшие модели.
Speculative Decoding — техника ускорения генерации.

Частые вопросы

Где смотреть latency разных провайдеров? artificialanalysis.ai — главный публичный бенчмарк latency и quality. Обновляется регулярно для всех крупных моделей.

Что важнее: TTFT или TPS? Для чата с короткими ответами — TTFT. Для длинных генераций (статьи, код) — TPS. Для голосовых ассистентов — оба критичны.

Как ускорить LLM локально? Quantization (Q4 GGUF вместо FP16) даёт 2–3× ускорение. vLLM или llama.cpp с правильными настройками. Если позволяет железо — speculative decoding.

Почему Groq так быстр? Custom-чипы (LPU — Language Processing Unit), специально под inference Transformers. SRAM-only архитектура без bottleneck'а memory bandwidth.

Latency влияет на качество? Прямо — нет. Косвенно — да: иногда «быстрая» версия модели использует quantization или меньший batch, что слегка снижает качество.

Как измерить latency своего API? time.perf_counter() до и после: до TTFT — до первого chunk'а в stream, до TPS — между chunk'ами в стабильном диапазоне.

Главное

Latency у LLM — это две метрики: TTFT (задержка до первого токена) и TPS (скорость потока после старта). Для UX чата критичен низкий TTFT — пользователь видит, что «оно отвечает». Для длинных ответов важен TPS. К 2026-му специализированные провайдеры (Groq, Cerebras) дают на порядок лучший latency, чем универсальные (OpenAI, Anthropic), на тех же моделях. Главный приём улучшения воспринимаемой latency — streaming на каждом этапе пайплайна. Для измерения и сравнения провайдеров — artificialanalysis.ai. Latency и quality иногда обратно связаны, но оптимизированный inference (правильный hardware + софт) может дать и то, и другое.

Что дальше:

Этот раздел Все термины: Языковые модели → Изучить тему системно — от базовых понятий до продвинутых. Если вы новичок Начать с основ: что такое AI → Один термин, с которого стоит начать знакомство с темой. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное из 156 статей.