Jak funguje LLM API ceny
LLM účtují za million tokens, samostatně za input (vaše výzva + kontext) a output (co model napíše zpět). Výstup je obvykle 3–5x dražší než vstup. Token je přibližně 4 anglické znaky nebo 3/4 slova.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Cenová krajina 2026
Objevily se tři úrovně:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — nejlepší uvažování, vize, dlouhý kontext
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % kvality špičkových modelů, 10–20 % ceny
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (přes Groq/Together) — ideální pro označování, klasifikaci, jednoduché chaty
Kde se skrývají skutečné úspory
Ceny jsou nejjednodušší páka; architectural levers move 2–10× more cost:
- Prompt caching — opakované systémové výzvy a kontext RAG ukládané do mezipaměti za ~10 % normální ceny. Míra zásahu mezipaměti 70 %+ je u chat / agent aplikací realistická. Snižuje vstupní účet o 75–90 %.
- Batch API — 50% sleva pro úkoly, které mohou počkat až 24 h. Ideální pro doplňování, hodnocení, zpracování dokumentů.
- Tiered routing — posílejte jednoduché dotazy levnému modelu a eskalujte na špičkový model pouze v případě potřeby. Snižuje smíšené náklady typických asistentů na polovinu.
- Reasoning budgets — pro o-series a Claude extended thinking, omezte tokeny pro přemýšlení. Výchozí přemýšlení může nafouknou výstupní náklady 5–10×.
- Self-hosted open weights — Llama 3.3 70B na jediném H100 je ~0,20 $/M tokenů při 80%+ využití; vyplatí se jen nad ~50 mil. tokenů/den.
Čtení srovnávací tabulky
Tabulka řadí podle měsíčních výdajů při vašich vstupech. Většina aplikací je input-heavy (RAG, dlouhé dokumenty, systémové výzvy), kde dominuje vstupní cena. Aplikace ve stylu chatu s krátkými výzvami a dlouhými dokončeními jsou output-heavy — dominuje výstupní cena.
Další cenové aspekty
- Context window: delší kontext = lepší vyhledávání, ale více vstupních tokenů = vyšší náklady
- Vision / image input: obrázky se převádějí na tokeny (obvykle 200–1 200 na obrázek)
- Tool use / function calls: definice nástrojů se počítají jako vstup při každém obratu, pokud nejsou uloženy do mezipaměti
- Fine-tuning: poplatek za trénink + inference obvykle za 2–4× cenu základního modelu
Spárujte s naší Prompt Cost Calculator pro odhad konkrétní výzvy, AI Model Cost Calculator pro projektové scénáře a AI ROI Calculator pro porovnání nákladů LLM s lidskými pracovními náklady, které nahrazuje.
Související kalkulačky
- AI Model Cost Calculator — Porovnejte ceny API pro 100+ LLM včetně GPT-4o, Claude, Gemini a Llama. Spočítejte přesné náklady na tokeny.
- AI vs Human ROI Calculator — Porovnejte náklady nástrojů AI s lidskou prací. Měsíční úspory, roční ROI a bod zvratu s živými cenami modelů.
- Prompt Cost Calculator — Vložte svou výzvu, vyberte model a okamžitě uvidíte, kolik tokenů použije a kolik bude stát její odeslání.