Cost per Token
cost per token — стоимость использования LLM в долларах за токены
Cost per Token — главная единица стоимости LLM API. Цена считается отдельно за input (то, что вы отправили) и output (что модель сгенерировала). Стандартная единица — $ за 1 миллион токенов. К 2026-му разброс огромен: GPT-4o $2.5/$10, Claude Sonnet $3/$15, GPT-3.5 $0.5/$1.5, Llama 3.1 8B через Together $0.18/$0.18, Gemini Flash $0.075/$0.30. Output обычно в 3–5× дороже input.
Коротко
Коротко. LLM API считают деньги в долларах за миллион токенов. У каждой модели две цены: input (что вы отправили) и output (что модель сгенерировала). Output обычно в 3–5× дороже input — потому что генерация дороже чтения. Разброс огромен: GPT-4o $2.5/$10 за 1M, Llama 3.1 8B $0.18/$0.18, Gemini Flash $0.075/$0.30. Главные приёмы экономии: prompt caching, выбор правильной модели под задачу, batch API.
Что это такое
Стартап делает чат-бот для службы поддержки. Прикинули: ~10 000 разговоров в день, средний — 5 сообщений с моделью. Используют GPT-4o.
Один разговор:
- Input: system prompt (500 токенов) + история (1500 токенов) × 5 итераций = 10 000 input-токенов.
- Output: средний ответ 200 токенов × 5 = 1 000 output-токенов.
Стоимость по тарифу $2.5/$10:
- Input: 10 000 × $2.5/1М = $0.025.
- Output: 1 000 × $10/1М = $0.01.
- На разговор: $0.035.
10 000 разговоров в день × $0.035 = $350/день = $10 500/месяц.
Если бы взяли Claude Sonnet ($3/$15), было бы дороже: $0.045/разговор = $13 500/месяц.
Если Gemini Flash ($0.075/$0.30) — было бы $0.001/разговор = $300/месяц. В 35 раз дешевле.
Это и есть искусство выбора модели — баланс качества и стоимости.
К 2026-му цены LLM упали в 100+ раз с момента релиза GPT-3 (2020 = $20/1M, 2026 = $0.10/1M на equivalent уровне). Тренд продолжается.
Как это работает
Биллинг устроен просто:
- Tokenization. При запросе провайдер подсчитывает токены отдельно для input и output.
- Каждая модель имеет свой токенайзер. GPT — tiktoken. Claude — собственный. Llama — SentencePiece. Один и тот же текст может дать разное количество токенов в разных моделях.
- Стоимость считается линейно. Цена за 1M токенов делится на количество использованных.
- Округление в большую сторону. Минимальный billable unit обычно 1 токен.
Дополнительные нюансы 2026:
- Prompt Caching (Anthropic, OpenAI). Если повторяете одинаковый префикс — платите за него только в первый раз. Скидки 75–90%.
- Batch API (OpenAI, Anthropic). Если можете подождать ответ до 24 часов — скидка 50%.
- Tools / built-in tools. Web search, code interpreter обычно тарифицируются отдельно (либо за вызов, либо за токены).
- Vision input. Картинки конвертируются в токены по специальной формуле — 256–1500+ токенов на изображение.
Пример на практике
Дизайнер использует ChatGPT API для автоматизации описаний к фотографиям. 1000 фото в месяц. Для каждой — input: краткое описание (50 токенов), output: SEO-описание (300 токенов).
Через GPT-4o ($2.5/$10):
- 1000 × (50 × $2.5/1M + 300 × $10/1M) = 1000 × ($0.000125 + $0.003) = $3.13/месяц.
Через Claude Haiku ($0.25/$1.25):
- 1000 × (50 × $0.25/1M + 300 × $1.25/1M) = $0.39/месяц.
Через Gemini Flash ($0.075/$0.30):
- 1000 × (50 × $0.075/1M + 300 × $0.30/1M) = $0.094/месяц.
Разница в 30+ раз. Дизайнер тестирует все три на 20 фото, сравнивает качество. Если Gemini Flash справляется — экономит $35/год. Если нет — поднимается до Haiku или GPT-4o.
В ComfyUI с LLM-нодами для batch-обработки 100+ промптов — сразу выбирать дешёвую модель. Через локальную Llama 8B Q4 на своей RTX 4090 — вообще $0 за токены.
С чем часто путают
- Cost per Token и Cost per Request — обычно платите за токены, не за запросы. Один длинный запрос дороже многих коротких.
- Input и Output cost — input дешевле, output дороже. Соотношение 1:3 до 1:5.
- Tokens и Words — 1 токен ≈ 0.75 слова английского, ≈ 0.4 слова русского (русский требует больше токенов на слово).
- Prompt Caching и Memory — Caching это скидка на повторяющийся text в API. Memory это feature чат-интерфейсов.
- Pricing tiers и SLA — у некоторых провайдеров (Anthropic, OpenAI) есть скидки за объём или enterprise-пакеты с гарантиями.
Частые ошибки и заблуждения
- «Output и input стоят одинаково». Нет. Output почти всегда в 3–5× дороже. У некоторых провайдеров (Together AI Llama) — равны.
- «Кириллица стоит так же, как латиница». Нет. Русский текст в 1.5–2× больше токенов на тот же смысл. Платите больше.
- «Самая дорогая модель — самая лучшая». Не всегда. Для простых задач Gemini Flash может быть и лучше, и дешевле, чем GPT-4o.
- «Подсчитать токены сложно». Просто:
tiktokenдля OpenAI,transformers.AutoTokenizerдля всех. Заранее можно оценить стоимость до отправки запроса. - «Цены константны». Нет. С 2020 по 2026 цены упали в 100+ раз. Регулярно проверяйте — возможно, ваш контракт уже устарел.
Связанные термины
- Token — единица биллинга.
- Prompt Caching — главная техника экономии на повторяющихся промптах.
- Batch API — скидка 50% за асинхронный ответ.
- Throughput — связан со скоростью, не со стоимостью напрямую.
- Context Window — длинные prompt'ы дороже.
- Quantization — путь снизить cost при self-hosting.
- API — где применяется cost per token.
Частые вопросы
Как заранее оценить стоимость моего запроса?
tiktoken.get_encoding("cl100k_base").encode(text) для OpenAI — даёт массив токенов, считаете length. Для Claude — anthropic.Anthropic().count_tokens(text).
Что такое Prompt Caching? Сохраняется hash префикса prompt'а на стороне провайдера. Если в следующем запросе тот же префикс — платите 10–25% от обычной цены за input. Особенно полезно при длинных system prompt'ах.
Сколько стоит обработка картинки? У GPT-4o vision: 85 токенов на каждую плитку 512×512. Картинка 1024×1024 = 765 токенов. Тарифицируется как input.
Где сравнивать цены? artificialanalysis.ai — главный публичный сравнитель. Также price pages самих провайдеров.
Можно ли договориться о скидке? Для крупных клиентов (>$10K/месяц) — да, через enterprise-контракты. Для малых — стандартные тарифы.
Локальный вариант дешевле облака? Зависит от объёма. До 10K запросов/день — облако дешевле (амортизация железа). Выше — локальная Llama на своём GPU становится выгодной.
Главное
Cost per Token — главная единица биллинга LLM API: $ за 1 миллион токенов, отдельно input и output. Output почти всегда в 3–5× дороже input. К 2026-му цены упали в 100+ раз с 2020-го: GPT-4o $2.5/$10, Gemini Flash $0.075/$0.30, локальная Llama — $0. Главные приёмы экономии: prompt caching (75–90% скидка на повторяющиеся префиксы), batch API (50% за асинхронность), router-паттерн (простые задачи — в дешёвую модель). Русский текст требует в 1.5–2× больше токенов, чем английский — учитывайте при бюджетировании. Заранее оценивайте стоимость через tiktoken или аналоги, не платите за то, что не нужно.