Hoe LLM API-prijsstelling werkt
LLMs rekenen per million tokens, afzonderlijk voor input (uw prompt + context) en output (wat het model terugschrijft). Uitvoer is doorgaans 3–5× duurder dan invoer. Een token is ruwweg 4 Engelse tekens of ¾ van een woord.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Het prijslandschap van 2026
Er zijn drie niveaus ontstaan:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — beste redenering, beeld, lange context
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% van frontierqualiteit, 10–20% van de prijs
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfect voor tagging, classificatie, eenvoudige chat
Waar de echte besparingen liggen
Prijsstelling is de eenvoudigste hefboom; architectural levers move 2–10× more cost:
- Prompt caching — herhaalde systeemprompts en RAG-context gecached voor ~10% van de normale prijs.
- Batch API — 50% korting voor taken die 24 uur kunnen wachten. Perfect voor backfills, evaluaties, documentverwerkingspijplijnen.
- Tiered routing — stuur eenvoudige beurten naar een goedkoop model en escaleer alleen naar een geavanceerd model als dat nodig is. Halveert gemengde kosten voor typische assistenten.
- Reasoning budgets — voor o-serie en Claude uitgebreid denken, begrens denk-tokens. Standaard denken kan uitvoerkosten 5–10× opblazen.
- Self-hosted open weights — Llama 3.3 70B op een enkele H100 is ~$0,20/M tokens bij 80%+ benutting; alleen de moeite waard boven ~50M tokens/dag.
De vergelijkingstabel lezen
De tabel sorteert op maandelijkse uitgaven bij uw invoer. De meeste apps zijn input-heavy (RAG, lange documenten, systeemprompts), waarbij de invoerprijs de totale kosten domineert. Chat-stijl apps met korte prompts en lange voltooiingen zijn output-heavy — uitvoerprijs domineert.
Andere kostenoverwegingen
- Context window: langere context = betere opvraging maar meer invoertokens = hogere kosten
- Vision / image input: afbeeldingen worden omgezet naar tokens (doorgaans 200–1.200 per afbeelding)
- Tool use / function calls: hulpdefinities tellen mee als invoer bij elke beurt, tenzij gecached
- Fine-tuning: trainingskosten + inferentie doorgaans tegen 2–4× de basismodelprijs
Combineer met onze Prompt Cost Calculator om een specifieke prompt te schatten, de AI Model Cost Calculator voor scenario's op projectniveau, en de AI ROI Calculator om LLM-kosten te vergelijken met de arbeidskosten die het vervangt.
Gerelateerde rekenmachines
- AI Model Cost Calculator — Vergelijk API-prijzen voor 100+ LLM's, inclusief GPT-4o, Claude, Gemini en meer
- AI vs Human ROI Calculator — Vergelijk AI-toolkosten met menselijke arbeid. Maandelijkse besparingen, jaarlijkse ROI
- Prompt Cost Calculator — Plak uw prompt, kies een model en zie direct hoeveel tokens het gebruikt en wat het kost om te versturen.