🤖 LLM Kostenvergelijker

Zij-aan-zij-kosten voor alle toonaangevende LLM API's. Prijzen worden live opgehaald van OpenRouter en 24 uur gecached — dekt Claude Opus, GPT, Gemini, Llama, DeepSeek en meer.

Modellen laden van OpenRouter…
Herhalend voorvoegsel? 70%+ realistisch.
ℹ️ Afkomstig van OpenRouter (24-uur browsercache). Prijzen kunnen enigszins afwijken van directe leveranciersprijzen omdat OpenRouter een kleine marge hanteert. Gecachede invoer is ~10% van de normale invoerprijs (Anthropic / OpenAI). Batch API-prijzen zijn ~50% van standaard. Redeneermodellen (o-serie, Claude met uitgebreid denken) brengen denk-tokens in rekening als uitvoer. Als de live feed niet bereikbaar is, vallen we terug op de lijstprijzen van mei 2026.

Hoe LLM API-prijsstelling werkt

LLMs rekenen per million tokens, afzonderlijk voor input (uw prompt + context) en output (wat het model terugschrijft). Uitvoer is doorgaans 3–5× duurder dan invoer. Een token is ruwweg 4 Engelse tekens of ¾ van een woord.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Het prijslandschap van 2026

Er zijn drie niveaus ontstaan:

  • Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — beste redenering, beeld, lange context
  • Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% van frontierqualiteit, 10–20% van de prijs
  • Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfect voor tagging, classificatie, eenvoudige chat

Waar de echte besparingen liggen

Prijsstelling is de eenvoudigste hefboom; architectural levers move 2–10× more cost:

  • Prompt caching — herhaalde systeemprompts en RAG-context gecached voor ~10% van de normale prijs.
  • Batch API — 50% korting voor taken die 24 uur kunnen wachten. Perfect voor backfills, evaluaties, documentverwerkingspijplijnen.
  • Tiered routing — stuur eenvoudige beurten naar een goedkoop model en escaleer alleen naar een geavanceerd model als dat nodig is. Halveert gemengde kosten voor typische assistenten.
  • Reasoning budgets — voor o-serie en Claude uitgebreid denken, begrens denk-tokens. Standaard denken kan uitvoerkosten 5–10× opblazen.
  • Self-hosted open weights — Llama 3.3 70B op een enkele H100 is ~$0,20/M tokens bij 80%+ benutting; alleen de moeite waard boven ~50M tokens/dag.

De vergelijkingstabel lezen

De tabel sorteert op maandelijkse uitgaven bij uw invoer. De meeste apps zijn input-heavy (RAG, lange documenten, systeemprompts), waarbij de invoerprijs de totale kosten domineert. Chat-stijl apps met korte prompts en lange voltooiingen zijn output-heavy — uitvoerprijs domineert.

Andere kostenoverwegingen

  • Context window: langere context = betere opvraging maar meer invoertokens = hogere kosten
  • Vision / image input: afbeeldingen worden omgezet naar tokens (doorgaans 200–1.200 per afbeelding)
  • Tool use / function calls: hulpdefinities tellen mee als invoer bij elke beurt, tenzij gecached
  • Fine-tuning: trainingskosten + inferentie doorgaans tegen 2–4× de basismodelprijs

Combineer met onze Prompt Cost Calculator om een specifieke prompt te schatten, de AI Model Cost Calculator voor scenario's op projectniveau, en de AI ROI Calculator om LLM-kosten te vergelijken met de arbeidskosten die het vervangt.

⚠️
Belangrijke opmerking: Prijzen zijn nauwkeurig per mei 2026 en veranderen regelmatig. Bevestig altijd op de officiële prijspagina van de aanbieder (Anthropic, OpenAI, Google AI, Together, DeepSeek) voordat u een contract aangaat. Volumekortingen, regionale prijsstelling en Azure/Bedrock-marges kunnen effectieve tarieven 10–30% doen verschuiven.

Gerelateerde rekenmachines

  • AI Model Cost Calculator — Vergelijk API-prijzen voor 100+ LLM's, inclusief GPT-4o, Claude, Gemini en meer
  • AI vs Human ROI Calculator — Vergelijk AI-toolkosten met menselijke arbeid. Maandelijkse besparingen, jaarlijkse ROI
  • Prompt Cost Calculator — Plak uw prompt, kies een model en zie direct hoeveel tokens het gebruikt en wat het kost om te versturen.