Cost per Token

Q: Как заранее оценить стоимость моего запроса?

tiktoken.get_encoding("cl100k_base").encode(text) для OpenAI — даёт массив токенов, считаете length. Для Claude — anthropic.Anthropic().count_tokens(text).

cost per token — стоимость использования LLM в долларах за токены

Раздел: Языковые модели
Обновлено: 18.05.26

Cost per Token — главная единица стоимости LLM API. Цена считается отдельно за input (то, что вы отправили) и output (что модель сгенерировала). Стандартная единица — $ за 1 миллион токенов. К 2026-му разброс огромен: GPT-4o $2.5/$10, Claude Sonnet $3/$15, GPT-3.5 $0.5/$1.5, Llama 3.1 8B через Together $0.18/$0.18, Gemini Flash $0.075/$0.30. Output обычно в 3–5× дороже input.

Коротко

Коротко. LLM API считают деньги в долларах за миллион токенов. У каждой модели две цены: input (что вы отправили) и output (что модель сгенерировала). Output обычно в 3–5× дороже input — потому что генерация дороже чтения. Разброс огромен: GPT-4o $2.5/$10 за 1M, Llama 3.1 8B $0.18/$0.18, Gemini Flash $0.075/$0.30. Главные приёмы экономии: prompt caching, выбор правильной модели под задачу, batch API.

Что это такое

Стартап делает чат-бот для службы поддержки. Прикинули: ~10 000 разговоров в день, средний — 5 сообщений с моделью. Используют GPT-4o.

Один разговор:

Input: system prompt (500 токенов) + история (1500 токенов) × 5 итераций = 10 000 input-токенов.
Output: средний ответ 200 токенов × 5 = 1 000 output-токенов.

Стоимость по тарифу $2.5/$10:

Input: 10 000 × $2.5/1М = $0.025.
Output: 1 000 × $10/1М = $0.01.
На разговор: $0.035.

10 000 разговоров в день × $0.035 = $350/день = $10 500/месяц.

Если бы взяли Claude Sonnet ($3/$15), было бы дороже: $0.045/разговор = $13 500/месяц.

Если Gemini Flash ($0.075/$0.30) — было бы $0.001/разговор = $300/месяц. В 35 раз дешевле.

Это и есть искусство выбора модели — баланс качества и стоимости.

К 2026-му цены LLM упали в 100+ раз с момента релиза GPT-3 (2020 = $20/1M, 2026 = $0.10/1M на equivalent уровне). Тренд продолжается.

Как это работает

Биллинг устроен просто:

Tokenization. При запросе провайдер подсчитывает токены отдельно для input и output.
Каждая модель имеет свой токенайзер. GPT — tiktoken. Claude — собственный. Llama — SentencePiece. Один и тот же текст может дать разное количество токенов в разных моделях.
Стоимость считается линейно. Цена за 1M токенов делится на количество использованных.
Округление в большую сторону. Минимальный billable unit обычно 1 токен.

Дополнительные нюансы 2026:

Prompt Caching (Anthropic, OpenAI). Если повторяете одинаковый префикс — платите за него только в первый раз. Скидки 75–90%.
Batch API (OpenAI, Anthropic). Если можете подождать ответ до 24 часов — скидка 50%.
Tools / built-in tools. Web search, code interpreter обычно тарифицируются отдельно (либо за вызов, либо за токены).
Vision input. Картинки конвертируются в токены по специальной формуле — 256–1500+ токенов на изображение.

Пример на практике

Дизайнер использует ChatGPT API для автоматизации описаний к фотографиям. 1000 фото в месяц. Для каждой — input: краткое описание (50 токенов), output: SEO-описание (300 токенов).

Через GPT-4o ($2.5/$10):

1000 × (50 × $2.5/1M + 300 × $10/1M) = 1000 × ($0.000125 + $0.003) = $3.13/месяц.

Через Claude Haiku ($0.25/$1.25):

1000 × (50 × $0.25/1M + 300 × $1.25/1M) = $0.39/месяц.

Через Gemini Flash ($0.075/$0.30):

1000 × (50 × $0.075/1M + 300 × $0.30/1M) = $0.094/месяц.

Разница в 30+ раз. Дизайнер тестирует все три на 20 фото, сравнивает качество. Если Gemini Flash справляется — экономит $35/год. Если нет — поднимается до Haiku или GPT-4o.

В ComfyUI с LLM-нодами для batch-обработки 100+ промптов — сразу выбирать дешёвую модель. Через локальную Llama 8B Q4 на своей RTX 4090 — вообще $0 за токены.

С чем часто путают

Cost per Token и Cost per Request — обычно платите за токены, не за запросы. Один длинный запрос дороже многих коротких.
Input и Output cost — input дешевле, output дороже. Соотношение 1:3 до 1:5.
Tokens и Words — 1 токен ≈ 0.75 слова английского, ≈ 0.4 слова русского (русский требует больше токенов на слово).
Prompt Caching и Memory — Caching это скидка на повторяющийся text в API. Memory это feature чат-интерфейсов.
Pricing tiers и SLA — у некоторых провайдеров (Anthropic, OpenAI) есть скидки за объём или enterprise-пакеты с гарантиями.

Частые ошибки и заблуждения

«Output и input стоят одинаково». Нет. Output почти всегда в 3–5× дороже. У некоторых провайдеров (Together AI Llama) — равны.
«Кириллица стоит так же, как латиница». Нет. Русский текст в 1.5–2× больше токенов на тот же смысл. Платите больше.
«Самая дорогая модель — самая лучшая». Не всегда. Для простых задач Gemini Flash может быть и лучше, и дешевле, чем GPT-4o.
«Подсчитать токены сложно». Просто: tiktoken для OpenAI, transformers.AutoTokenizer для всех. Заранее можно оценить стоимость до отправки запроса.
«Цены константны». Нет. С 2020 по 2026 цены упали в 100+ раз. Регулярно проверяйте — возможно, ваш контракт уже устарел.

Связанные термины

Token — единица биллинга.
Prompt Caching — главная техника экономии на повторяющихся промптах.
Batch API — скидка 50% за асинхронный ответ.
Throughput — связан со скоростью, не со стоимостью напрямую.
Context Window — длинные prompt'ы дороже.
Quantization — путь снизить cost при self-hosting.
API — где применяется cost per token.

Частые вопросы

Как заранее оценить стоимость моего запроса? tiktoken.get_encoding("cl100k_base").encode(text) для OpenAI — даёт массив токенов, считаете length. Для Claude — anthropic.Anthropic().count_tokens(text).

Что такое Prompt Caching? Сохраняется hash префикса prompt'а на стороне провайдера. Если в следующем запросе тот же префикс — платите 10–25% от обычной цены за input. Особенно полезно при длинных system prompt'ах.

Сколько стоит обработка картинки? У GPT-4o vision: 85 токенов на каждую плитку 512×512. Картинка 1024×1024 = 765 токенов. Тарифицируется как input.

Где сравнивать цены? artificialanalysis.ai — главный публичный сравнитель. Также price pages самих провайдеров.

Можно ли договориться о скидке? Для крупных клиентов (>$10K/месяц) — да, через enterprise-контракты. Для малых — стандартные тарифы.

Локальный вариант дешевле облака? Зависит от объёма. До 10K запросов/день — облако дешевле (амортизация железа). Выше — локальная Llama на своём GPU становится выгодной.

Главное

Cost per Token — главная единица биллинга LLM API: $ за 1 миллион токенов, отдельно input и output. Output почти всегда в 3–5× дороже input. К 2026-му цены упали в 100+ раз с 2020-го: GPT-4o $2.5/$10, Gemini Flash $0.075/$0.30, локальная Llama — $0. Главные приёмы экономии: prompt caching (75–90% скидка на повторяющиеся префиксы), batch API (50% за асинхронность), router-паттерн (простые задачи — в дешёвую модель). Русский текст требует в 1.5–2× больше токенов, чем английский — учитывайте при бюджетировании. Заранее оценивайте стоимость через tiktoken или аналоги, не платите за то, что не нужно.

Что дальше:

Этот раздел Все термины: Языковые модели → Изучить тему системно — от базовых понятий до продвинутых. Если вы новичок Начать с основ: что такое AI → Один термин, с которого стоит начать знакомство с темой. Удиви меня Случайный термин → Серендипити: попасть на что-то неожиданное из 156 статей.