A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 Сравнение стоимости LLM

Сравнение стоимости по всем ведущим API LLM. Цены загружаются в реальном времени с OpenRouter и кешируются на 24 часа — охватывает Claude Opus, GPT, Gemini, Llama, DeepSeek и другие.

Загрузка моделей с OpenRouter…

Среднее количество входных токенов / вызов

Среднее число выходных токенов / вызов

Звонков в день

Доля кэш-попаданий (%)Повторяющийся префикс? Реалистично 70%+.

ℹ️ Источник: OpenRouter (кеш браузера на 24 часа). Цены могут незначительно отличаться от цен непосредственного провайдера, поскольку OpenRouter берёт небольшую комиссию. Кэшированные входные данные составляют ~10% от обычной цены (Anthropic / OpenAI). Цены на пакетный API составляют ~50% от стандартных. Модели с рассуждениями (серия o, Claude с расширенным мышлением) тарифицируют токены размышлений как выходные. Если прямая передача данных недоступна, используются цены из списка за май 2026 года.

Как работает ценообразование API LLM

LLM тарифицируются за million tokens, отдельно для input (ваша подсказка + контекст) и output (то, что модель записывает обратно). Выходные данные обычно в 3–5 раз дороже входных. Токен — это примерно 4 английских символа или ¾ слова.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Ценовая ситуация 2026 года

Выделилось три уровня:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — лучшее рассуждение, распознавание изображений, длинный контекст
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% качества передового уровня, 10–20% цены
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (через Groq/Together) — идеально для тегирования, классификации, простого чата

Где находится реальная экономия

Ценообразование — самый простой рычаг; architectural levers move 2–10× more cost:

Prompt caching — повторяющиеся системные подсказки и контекст RAG кешируются по ~10% от обычной цены. Процент попаданий в кеш 70%+ реален для чат/агент-приложений. Снижает стоимость входных данных на 75–90%.
Batch API — скидка 50% для задач, которые могут подождать до 24 часов. Идеально для фоновых процессов, оценок, конвейеров обработки документов.
Tiered routing — отправляйте простые запросы на дешёвую модель и переключайтесь на флагманскую только при необходимости. Сокращает смешанные расходы для типичных ассистентов вдвое.
Reasoning budgets — для серии o и расширенного мышления Claude ограничьте токены размышления. Токены размышления по умолчанию могут увеличить стоимость вывода в 5–10 раз.
Self-hosted open weights — Llama 3.3 70B на одном H100 составляет ~$0,20/млн токенов при 80%+ утилизации; целесообразно только выше ~50 млн токенов/день.

Как читать сравнительную таблицу

Таблица сортируется по ежемесячным расходам при ваших входных данных. Большинство приложений — это input-heavy (RAG, длинные документы, системные подсказки), где цена входных данных доминирует в общей стоимости. Приложения в стиле чата с короткими подсказками и длинными завершениями — это output-heavy, где доминирует цена выходных данных.

Прочие соображения по стоимости

Context window: более длинный контекст = лучшее извлечение, но больше входных токенов = более высокая стоимость
Vision / image input: изображения переводятся в токены (обычно 200–1 200 на изображение)
Tool use / function calls: определения инструментов считаются входными данными при каждом обращении, если они не кешированы
Fine-tuning: плата за обучение + инференс, как правило, в 2–4 раза дороже базовой модели

В сочетании с нашим Prompt Cost Calculator для оценки конкретного промта, AI Model Cost Calculator для сценариев на уровне проекта и AI ROI Calculator для сравнения стоимости LLM с человеческими трудозатратами, которые он заменяет.

⚠️

Важное примечание: Цены актуальны по состоянию на май 2026 года и часто меняются. Всегда уточняйте на официальной странице тарифов провайдера (Anthropic, OpenAI, Google AI, Together, DeepSeek) перед заключением договора. Объёмные скидки, региональные цены и наценки Azure/Bedrock могут изменять фактические ставки на 10–30%.