How LLM API Pricing Works
LLM'er opkræver per million tokens, separat for input (din prompt + kontekst) og output (hvad modellen skriver tilbage). Output er typisk 3–5× dyrere end input. En token er ca. 4 engelske tegn eller ¾ af et ord.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
The 2026 Price Landscape
Tre niveauer er opstået:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — bedste reasoning, vision, lang kontekst
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% af frontier-kvalitet, 10–20% af prisen
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfect for tagging, classification, simple chat
Where the Real Savings Live
Pricing is the easy lever; architectural levers move 2–10× more cost:
- Prompt caching — gentagne systeminstruktioner og RAG-kontekst caches til ca. 10% af normalprisen. En cache-hitrate på 70%+ er realistisk for chat/agent-apps. Reducerer inputregningen med 75–90%.
- Batch API — 50% discount for jobs that can wait up to 24h. Perfect for backfills, evaluations, doc-processing pipelines.
- Tiered routing — send simple turns to a cheap model and only escalate to a frontier model when needed. Halves blended cost for typical assistants.
- Reasoning budgets — for o-serien og Claude udvidet tænkning, begræns thinking-tokens. Standard tænkning kan ballonere output-omkostninger 5–10×.
- Self-hosted open weights — Llama 3.3 70B på en enkelt H100 er ~$0,20/M tokens ved 80%+ udnyttelse; kun det værd over ~50M tokens/dag.
Reading the Comparison Table
Tabellen sorterer efter månedlig forbrug ved dine input. De fleste apps er input-heavy (RAG, lange dokumenter, systemprompts), hvor inputprisen dominerer den samlede omkostning. Chat-apps med korte prompts og lange completions er output-heavy — outputprisen dominerer.
Other Cost Considerations
- Context window: longer context = better retrieval but more input tokens = higher cost
- Vision / image input: images convert to tokens (typically 200–1,200 per image)
- Tool use / function calls: tool definitions count as input on every turn unless cached
- Fine-tuning: training fee + inference at typically 2–4× the base model price
Pair with our Prompt Cost Calculator to estimate a specific prompt, the AI Model Cost Calculator for project-level scenarios, and the AI ROI Calculator to compare LLM cost against the human-labour cost it replaces.
Relaterede lommeregnere
- AI Model Cost Calculator — Sammenlign API-priser for 100+ LLM'er inkl. GPT-4o, Claude, Gemini og Llama. Beregn præcise tokenomkostninger.
- AI vs Human ROI Calculator — Sammenlign AI-værktøjsomkostninger med menneskelig arbejdskraft. Månedlige besparelser, årligt ROI og break-even med live modelpriser.
- Prompt Cost Calculator — Paste your prompt, choose a model, and instantly see how many tokens it uses and what it costs to send.