A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 Komparátor nákladů LLM

Srovnání nákladů na straně pro všechna přední LLM API. Ceny načítány živě z OpenRouteru a ukládány do mezipaměti na 24 hodin — zahrnuje Claude Opus, GPT, Gemini, Llama, DeepSeek a další.

Načítání modelů z OpenRouter…

Průměr vstupních tokenů / hovor

Prům. výstupní tokeny / volání

Hovory za den

Míra zásahů v mezipaměti (%)Opakující se prefix? 70%+ realistické.

ℹ️ Zdroj: OpenRouter (24h mezipaměť prohlížeče). Ceny se mohou mírně lišit od přímých cen poskytovatelů, protože OpenRouter bere malou marži. Cena za uložený vstup je ~10 % normální ceny vstupu (Anthropic / OpenAI). Ceny Batch API jsou ~50 % standardní ceny. Modely pro uvažování (série o, Claude s rozšířeným myšlením) účtují tokeny myšlení jako výstup. Pokud živý zdroj není dostupný, používáme záložní ceníky z května 2026.

Jak funguje LLM API ceny

LLM účtují za million tokens, samostatně za input (vaše výzva + kontext) a output (co model napíše zpět). Výstup je obvykle 3–5x dražší než vstup. Token je přibližně 4 anglické znaky nebo 3/4 slova.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Cenová krajina 2026

Objevily se tři úrovně:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — nejlepší uvažování, vize, dlouhý kontext
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % kvality špičkových modelů, 10–20 % ceny
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (přes Groq/Together) — ideální pro označování, klasifikaci, jednoduché chaty

Kde se skrývají skutečné úspory

Ceny jsou nejjednodušší páka; architectural levers move 2–10× more cost:

Prompt caching — opakované systémové výzvy a kontext RAG ukládané do mezipaměti za ~10 % normální ceny. Míra zásahu mezipaměti 70 %+ je u chat / agent aplikací realistická. Snižuje vstupní účet o 75–90 %.
Batch API — 50% sleva pro úkoly, které mohou počkat až 24 h. Ideální pro doplňování, hodnocení, zpracování dokumentů.
Tiered routing — posílejte jednoduché dotazy levnému modelu a eskalujte na špičkový model pouze v případě potřeby. Snižuje smíšené náklady typických asistentů na polovinu.
Reasoning budgets — pro o-series a Claude extended thinking, omezte tokeny pro přemýšlení. Výchozí přemýšlení může nafouknou výstupní náklady 5–10×.
Self-hosted open weights — Llama 3.3 70B na jediném H100 je ~0,20 $/M tokenů při 80%+ využití; vyplatí se jen nad ~50 mil. tokenů/den.

Čtení srovnávací tabulky

Tabulka řadí podle měsíčních výdajů při vašich vstupech. Většina aplikací je input-heavy (RAG, dlouhé dokumenty, systémové výzvy), kde dominuje vstupní cena. Aplikace ve stylu chatu s krátkými výzvami a dlouhými dokončeními jsou output-heavy — dominuje výstupní cena.

Další cenové aspekty

Context window: delší kontext = lepší vyhledávání, ale více vstupních tokenů = vyšší náklady
Vision / image input: obrázky se převádějí na tokeny (obvykle 200–1 200 na obrázek)
Tool use / function calls: definice nástrojů se počítají jako vstup při každém obratu, pokud nejsou uloženy do mezipaměti
Fine-tuning: poplatek za trénink + inference obvykle za 2–4× cenu základního modelu

Spárujte s naší Prompt Cost Calculator pro odhad konkrétní výzvy, AI Model Cost Calculator pro projektové scénáře a AI ROI Calculator pro porovnání nákladů LLM s lidskými pracovními náklady, které nahrazuje.

⚠️

Důležitá poznámka: Ceny platné k květnu 2026 a často se mění. Před uzavřením smlouvy vždy ověřte na oficiální stránce poskytovatele (Anthropic, OpenAI, Google AI, Together, DeepSeek). Množstevní slevy, regionální ceny a marže Azure/Bedrock mohou posunout efektivní sazby o 10–30 %.

Související kalkulačky

AI Model Cost Calculator — Porovnejte ceny API pro 100+ LLM včetně GPT-4o, Claude, Gemini a Llama. Spočítejte přesné náklady na tokeny.
AI vs Human ROI Calculator — Porovnejte náklady nástrojů AI s lidskou prací. Měsíční úspory, roční ROI a bod zvratu s živými cenami modelů.
Prompt Cost Calculator — Vložte svou výzvu, vyberte model a okamžitě uvidíte, kolik tokenů použije a kolik bude stát její odeslání.