Как работает ценообразование API LLM
LLM тарифицируются за million tokens, отдельно для input (ваша подсказка + контекст) и output (то, что модель записывает обратно). Выходные данные обычно в 3–5 раз дороже входных. Токен — это примерно 4 английских символа или ¾ слова.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Ценовая ситуация 2026 года
Выделилось три уровня:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — лучшее рассуждение, распознавание изображений, длинный контекст
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% качества передового уровня, 10–20% цены
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (через Groq/Together) — идеально для тегирования, классификации, простого чата
Где находится реальная экономия
Ценообразование — самый простой рычаг; architectural levers move 2–10× more cost:
- Prompt caching — повторяющиеся системные подсказки и контекст RAG кешируются по ~10% от обычной цены. Процент попаданий в кеш 70%+ реален для чат/агент-приложений. Снижает стоимость входных данных на 75–90%.
- Batch API — скидка 50% для задач, которые могут подождать до 24 часов. Идеально для фоновых процессов, оценок, конвейеров обработки документов.
- Tiered routing — отправляйте простые запросы на дешёвую модель и переключайтесь на флагманскую только при необходимости. Сокращает смешанные расходы для типичных ассистентов вдвое.
- Reasoning budgets — для серии o и расширенного мышления Claude ограничьте токены размышления. Токены размышления по умолчанию могут увеличить стоимость вывода в 5–10 раз.
- Self-hosted open weights — Llama 3.3 70B на одном H100 составляет ~$0,20/млн токенов при 80%+ утилизации; целесообразно только выше ~50 млн токенов/день.
Как читать сравнительную таблицу
Таблица сортируется по ежемесячным расходам при ваших входных данных. Большинство приложений — это input-heavy (RAG, длинные документы, системные подсказки), где цена входных данных доминирует в общей стоимости. Приложения в стиле чата с короткими подсказками и длинными завершениями — это output-heavy, где доминирует цена выходных данных.
Прочие соображения по стоимости
- Context window: более длинный контекст = лучшее извлечение, но больше входных токенов = более высокая стоимость
- Vision / image input: изображения переводятся в токены (обычно 200–1 200 на изображение)
- Tool use / function calls: определения инструментов считаются входными данными при каждом обращении, если они не кешированы
- Fine-tuning: плата за обучение + инференс, как правило, в 2–4 раза дороже базовой модели
В сочетании с нашим Prompt Cost Calculator для оценки конкретного промта, AI Model Cost Calculator для сценариев на уровне проекта и AI ROI Calculator для сравнения стоимости LLM с человеческими трудозатратами, которые он заменяет.
Похожие калькуляторы
- AI Model Cost Calculator — Сравните цены API для 100+ LLM, включая GPT-4o, Claude, Gemini и Llama. Рассчитайте точную стоимость токенов.
- AI vs Human ROI Calculator — Сравните стоимость инструментов ИИ с затратами на ручной труд. Ежемесячная экономия, годовой ROI и точка безубыточности с актуальными ценами на модели.
- Prompt Cost Calculator — Вставьте промт, выберите модель и мгновенно увидите, сколько токенов он использует и сколько стоит его отправка.