A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

Komparator kosztów LLM

Porównanie kosztów dla wszystkich wiodących API LLM. Ceny pobierane na żywo z OpenRouter i buforowane przez 24 godziny — obejmuje Claude Opus, GPT, Gemini, Llama, DeepSeek i inne.

Wczytywanie modeli z OpenRouter...

Śr. tokeny wejściowe / wywołanie

Śr. tokeny wyjściowe / zapytanie

Połączenia dziennie

Wskaźnik trafień pamięci podręcznej (%)Powtarzający się prefiks? Ponad 70% realistyczne.

ℹ️ Źródło: OpenRouter (24-godzinna pamięć podręczna przeglądarki). Ceny mogą nieznacznie różnić się od cen bezpośrednio u dostawcy, ponieważ OpenRouter pobiera niewielką marżę. Cena za dane wejściowe z pamięci podręcznej wynosi ~10% normalnej ceny wejściowej (Anthropic / OpenAI). Cena API wsadowego wynosi ~50% ceny standardowej. Modele rozumowania (seria o, Claude z rozszerzonym myśleniem) naliczają tokeny myślenia jako dane wyjściowe. Jeśli transmisja na żywo jest niedostępna, korzystamy z cen katalogowych z maja 2026.

Jak działa cennik API dla LLM

LLM naliczają opłaty za million tokens, osobno za input (Twój prompt + kontekst) i output (to, co model zapisuje w odpowiedzi). Dane wyjściowe są zazwyczaj 3–5× droższe od danych wejściowych. Token to około 4 znaki angielskie lub 3/4 słowa.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Krajobraz cenowy 2026

Wyłoniły się trzy poziomy:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — najlepsze rozumowanie, wizja, długi kontekst
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% jakości czołowej, 10–20% ceny
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (przez Groq/Together) — idealne do tagowania, klasyfikacji, prostego czatu

Gdzie leżą prawdziwe oszczędności

Ceny to łatwa dźwignia; architectural levers move 2–10× more cost:

Prompt caching — powtarzające się systemowe prompty i kontekst RAG przechowywany w pamięci podręcznej po ok. 10% normalnej ceny. Wskaźnik trafień pamięci podręcznej powyżej 70% jest realistyczny dla aplikacji czat/agent. Obniża koszty wejść o 75–90%.
Batch API — 50% rabatu na zadania, które mogą poczekać do 24 godzin. Idealne do uzupełniania danych, ewaluacji i potoków przetwarzania dokumentów.
Tiered routing — wysyłaj proste zapytania do taniego modelu i eskaluj do modelu granicznego tylko wtedy, gdy jest to konieczne. Zmniejsza to o połowę koszt mieszany typowych asystentów.
Reasoning budgets — dla serii o i Claude z rozszerzonym myśleniem, ogranicz tokeny myślenia. Domyślne myślenie może zwiększyć koszt danych wyjściowych 5–10×.
Self-hosted open weights — Llama 3.3 70B na pojedynczym H100 to ~0,20 USD/M tokenów przy 80%+ wykorzystaniu; opłaca się dopiero powyżej ~50M tokenów/dzień.

Czytanie tabeli porównawczej

Tabela sortuje według miesięcznych wydatków przy podanych parametrach. Większość aplikacji to input-heavy (RAG, długie dokumenty, prompty systemowe), gdzie cena za dane wejściowe dominuje w całkowitym koszcie. Aplikacje czatowe z krótkimi promptami i długimi odpowiedziami to output-heavy — dominuje cena za dane wyjściowe.

Inne kwestie kosztowe

Context window: dłuższy kontekst = lepsze odczytywanie, ale więcej tokenów wejściowych = wyższy koszt
Vision / image input: obrazy są przeliczane na tokeny (zazwyczaj 200–1 200 na obraz)
Tool use / function calls: definicje narzędzi liczą się jako dane wejściowe przy każdym żądaniu, chyba że są w pamięci podręcznej
Fine-tuning: opłata za szkolenie + wnioskowanie zwykle w cenie 2–4× modelu bazowego

Połącz z naszym Prompt Cost Calculator do szacowania konkretnego promptu, AI Model Cost Calculator do scenariuszy na poziomie projektu i AI ROI Calculator do porównania kosztu LLM z kosztem pracy ludzkiej, którą zastępuje.

⚠️

Ważna uwaga: Ceny aktualne na maj 2026 r. i często się zmieniają. Zawsze potwierdzaj na oficjalnej stronie cennika dostawcy (Anthropic, OpenAI, Google AI, Together, DeepSeek) przed podpisaniem umowy. Rabaty wolumenowe, regionalne ceny i marże Azure/Bedrock mogą zmieniać efektywne stawki o 10–30%.

Powiązane kalkulatory

AI Model Cost Calculator — Porównaj ceny API dla ponad 100 modeli LLM, w tym GPT-4o, Claude, Gemini i Llama. Oblicz dokładne koszty tokenów.
AI vs Human ROI Calculator — Porównaj koszty narzędzi AI z kosztami pracy ludzkiej. Miesięczne oszczędności, roczny zwrot z inwestycji i próg rentowności z aktualnymi cenami modeli.
Prompt Cost Calculator — Wklej swój prompt, wybierz model i zobacz natychmiast, ile tokenów zużywa i ile kosztuje wysłanie.