A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 LLM Kostenvergelijker

Zij-aan-zij-kosten voor alle toonaangevende LLM API's. Prijzen worden live opgehaald van OpenRouter en 24 uur gecached — dekt Claude Opus, GPT, Gemini, Llama, DeepSeek en meer.

Modellen laden van OpenRouter…

Gem. invoertokens / aanroep

Gem. uitvoertokens / aanroep

Oproepen per dag

Cache-trefferpercentage (%)Herhalend voorvoegsel? 70%+ realistisch.

ℹ️ Afkomstig van OpenRouter (24-uur browsercache). Prijzen kunnen enigszins afwijken van directe leveranciersprijzen omdat OpenRouter een kleine marge hanteert. Gecachede invoer is ~10% van de normale invoerprijs (Anthropic / OpenAI). Batch API-prijzen zijn ~50% van standaard. Redeneermodellen (o-serie, Claude met uitgebreid denken) brengen denk-tokens in rekening als uitvoer. Als de live feed niet bereikbaar is, vallen we terug op de lijstprijzen van mei 2026.

Hoe LLM API-prijsstelling werkt

LLMs rekenen per million tokens, afzonderlijk voor input (uw prompt + context) en output (wat het model terugschrijft). Uitvoer is doorgaans 3–5× duurder dan invoer. Een token is ruwweg 4 Engelse tekens of ¾ van een woord.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Het prijslandschap van 2026

Er zijn drie niveaus ontstaan:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — beste redenering, beeld, lange context
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% van frontierqualiteit, 10–20% van de prijs
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfect voor tagging, classificatie, eenvoudige chat

Waar de echte besparingen liggen

Prijsstelling is de eenvoudigste hefboom; architectural levers move 2–10× more cost:

Prompt caching — herhaalde systeemprompts en RAG-context gecached voor ~10% van de normale prijs.
Batch API — 50% korting voor taken die 24 uur kunnen wachten. Perfect voor backfills, evaluaties, documentverwerkingspijplijnen.
Tiered routing — stuur eenvoudige beurten naar een goedkoop model en escaleer alleen naar een geavanceerd model als dat nodig is. Halveert gemengde kosten voor typische assistenten.
Reasoning budgets — voor o-serie en Claude uitgebreid denken, begrens denk-tokens. Standaard denken kan uitvoerkosten 5–10× opblazen.
Self-hosted open weights — Llama 3.3 70B op een enkele H100 is ~$0,20/M tokens bij 80%+ benutting; alleen de moeite waard boven ~50M tokens/dag.

De vergelijkingstabel lezen

De tabel sorteert op maandelijkse uitgaven bij uw invoer. De meeste apps zijn input-heavy (RAG, lange documenten, systeemprompts), waarbij de invoerprijs de totale kosten domineert. Chat-stijl apps met korte prompts en lange voltooiingen zijn output-heavy — uitvoerprijs domineert.

Andere kostenoverwegingen

Context window: langere context = betere opvraging maar meer invoertokens = hogere kosten
Vision / image input: afbeeldingen worden omgezet naar tokens (doorgaans 200–1.200 per afbeelding)
Tool use / function calls: hulpdefinities tellen mee als invoer bij elke beurt, tenzij gecached
Fine-tuning: trainingskosten + inferentie doorgaans tegen 2–4× de basismodelprijs

Combineer met onze Prompt Cost Calculator om een specifieke prompt te schatten, de AI Model Cost Calculator voor scenario's op projectniveau, en de AI ROI Calculator om LLM-kosten te vergelijken met de arbeidskosten die het vervangt.

⚠️

Belangrijke opmerking: Prijzen zijn nauwkeurig per mei 2026 en veranderen regelmatig. Bevestig altijd op de officiële prijspagina van de aanbieder (Anthropic, OpenAI, Google AI, Together, DeepSeek) voordat u een contract aangaat. Volumekortingen, regionale prijsstelling en Azure/Bedrock-marges kunnen effectieve tarieven 10–30% doen verschuiven.

Gerelateerde rekenmachines

AI Model Cost Calculator — Vergelijk API-prijzen voor 100+ LLM's, inclusief GPT-4o, Claude, Gemini en meer
AI vs Human ROI Calculator — Vergelijk AI-toolkosten met menselijke arbeid. Maandelijkse besparingen, jaarlijkse ROI
Prompt Cost Calculator — Plak uw prompt, kies een model en zie direct hoeveel tokens het gebruikt en wat het kost om te versturen.