Jak działa cennik API dla LLM
LLM naliczają opłaty za million tokens, osobno za input (Twój prompt + kontekst) i output (to, co model zapisuje w odpowiedzi). Dane wyjściowe są zazwyczaj 3–5× droższe od danych wejściowych. Token to około 4 znaki angielskie lub 3/4 słowa.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Krajobraz cenowy 2026
Wyłoniły się trzy poziomy:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — najlepsze rozumowanie, wizja, długi kontekst
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% jakości czołowej, 10–20% ceny
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (przez Groq/Together) — idealne do tagowania, klasyfikacji, prostego czatu
Gdzie leżą prawdziwe oszczędności
Ceny to łatwa dźwignia; architectural levers move 2–10× more cost:
- Prompt caching — powtarzające się systemowe prompty i kontekst RAG przechowywany w pamięci podręcznej po ok. 10% normalnej ceny. Wskaźnik trafień pamięci podręcznej powyżej 70% jest realistyczny dla aplikacji czat/agent. Obniża koszty wejść o 75–90%.
- Batch API — 50% rabatu na zadania, które mogą poczekać do 24 godzin. Idealne do uzupełniania danych, ewaluacji i potoków przetwarzania dokumentów.
- Tiered routing — wysyłaj proste zapytania do taniego modelu i eskaluj do modelu granicznego tylko wtedy, gdy jest to konieczne. Zmniejsza to o połowę koszt mieszany typowych asystentów.
- Reasoning budgets — dla serii o i Claude z rozszerzonym myśleniem, ogranicz tokeny myślenia. Domyślne myślenie może zwiększyć koszt danych wyjściowych 5–10×.
- Self-hosted open weights — Llama 3.3 70B na pojedynczym H100 to ~0,20 USD/M tokenów przy 80%+ wykorzystaniu; opłaca się dopiero powyżej ~50M tokenów/dzień.
Czytanie tabeli porównawczej
Tabela sortuje według miesięcznych wydatków przy podanych parametrach. Większość aplikacji to input-heavy (RAG, długie dokumenty, prompty systemowe), gdzie cena za dane wejściowe dominuje w całkowitym koszcie. Aplikacje czatowe z krótkimi promptami i długimi odpowiedziami to output-heavy — dominuje cena za dane wyjściowe.
Inne kwestie kosztowe
- Context window: dłuższy kontekst = lepsze odczytywanie, ale więcej tokenów wejściowych = wyższy koszt
- Vision / image input: obrazy są przeliczane na tokeny (zazwyczaj 200–1 200 na obraz)
- Tool use / function calls: definicje narzędzi liczą się jako dane wejściowe przy każdym żądaniu, chyba że są w pamięci podręcznej
- Fine-tuning: opłata za szkolenie + wnioskowanie zwykle w cenie 2–4× modelu bazowego
Połącz z naszym Prompt Cost Calculator do szacowania konkretnego promptu, AI Model Cost Calculator do scenariuszy na poziomie projektu i AI ROI Calculator do porównania kosztu LLM z kosztem pracy ludzkiej, którą zastępuje.
Powiązane kalkulatory
- AI Model Cost Calculator — Porównaj ceny API dla ponad 100 modeli LLM, w tym GPT-4o, Claude, Gemini i Llama. Oblicz dokładne koszty tokenów.
- AI vs Human ROI Calculator — Porównaj koszty narzędzi AI z kosztami pracy ludzkiej. Miesięczne oszczędności, roczny zwrot z inwestycji i próg rentowności z aktualnymi cenami modeli.
- Prompt Cost Calculator — Wklej swój prompt, wybierz model i zobacz natychmiast, ile tokenów zużywa i ile kosztuje wysłanie.