A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 LLM-kostnadsjämförare

Kostnad sida vid sida för alla ledande LLM API:er. Prissättning hämtas live från OpenRouter och cachas i 24 timmar — täcker Claude Opus, GPT, Gemini, Llama, DeepSeek och mer.

Laddar modeller från OpenRouter…

Genomsnittliga inmatningstokens / anrop

Genomsnittliga utdatatoken/anrop

Samtal per dag

Cachträffsfrekvens (%)Upprepat prefix? 70 %+ realistiskt.

ℹ️ Hämtat från OpenRouter (24-tim webbläsarcache). Priser kan skilja sig något från direktpriset hos leverantören eftersom OpenRouter tar en liten marginal. Cachad inmatning är ~10 % av normalt inmatningspris (Anthropic / OpenAI). Batch-API-prissättning är ~50 % av standardpriset. Reasoning-modeller (o-serien, Claude med utökad resonemang) fakturerar tankekedjor som utdata. Om live-flödet inte är tillgängligt faller vi tillbaka på listpriser från maj 2026.

Hur LLM API-prissättning fungerar

LLM:er debiterar per million tokens, separat för input (din prompt + kontext) och output (vad modellen skriver tillbaka). Utdata är vanligtvis 3–5 gånger dyrare än inmatning. En token är ungefär 4 engelska tecken eller ¾ av ett ord.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Prislandskapet 2026

Tre nivåer har uppstått:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro – bäst resonemang, vision, lång kontext
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % av frontlinjenivå, 10–20 % av priset
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfekt för taggning, klassificering, enkel chatt

Var de verkliga besparingarna finns

Prissättning är den enkla spaken; architectural levers move 2–10× more cost:

Prompt caching — upprepade systemprompts och RAG-kontext cachade till ~10% av normalpriset. 70%+ cache-träfffrekvens är realistisk för chatt-/agentappar. Minskar indata-räkningen med 75–90%.
Batch API — 50 % rabatt för jobb som kan vänta upp till 24 timmar. Perfekt för backfills, utvärderingar, dokumentbehandlingspipelines.
Tiered routing — skicka enkla konversationer till en billig modell och eskalera bara till en frontmodell när det behövs. Halverar den blandade kostnaden för typiska assistenter.
Reasoning budgets — för o-serien och Claude utökad resonemang, begränsa tankekedjor. Standard tankekedjor kan blåsa upp utdatakostnaden 5–10 gånger.
Self-hosted open weights — Llama 3.3 70B på en enda H100 är ~0,20 $/M tokens med 80 %+ utnyttjandegrad; lönar sig bara vid >50 miljoner tokens/dag.

Läsa jämförelsetabellen

Tabellen sorterar efter månadsutgifter baserat på dina inmatningar. De flesta appar är input-heavy (RAG, långa dokument, systemprompt), där inmatningspriset dominerar totalkostnaden. Chatliknande appar med korta prompter och långa svar är output-heavy – utdatapriset dominerar.

Övriga kostnadsöverväganden

Context window: längre kontext = bättre hämtning men fler inmatningstokens = högre kostnad
Vision / image input: bilder omvandlas till tokens (vanligtvis 200–1 200 per bild)
Tool use / function calls: verktygsdefinianer räknas som inmatning i varje tur om de inte är cachade
Fine-tuning: träningsavgift + inferens till vanligtvis 2–4× baspriset

Para ihop med vår Prompt Cost Calculator för att uppskatta en specifik fråga, AI Model Cost Calculator för scenarier på projektnivå och AI ROI Calculator för att jämföra LLM-kostnad mot den mänskliga arbetskostnad den ersätter.

⚠️

Viktig anmärkning: Priser korrekta per maj 2026 och ändras ofta. Bekräfta alltid på leverantörens officiella prissättningssida (Anthropic, OpenAI, Google AI, Together, DeepSeek) innan du ingår ett kontrakt. Volymrabatter, regionala priser och Azure/Bedrock-marginaler kan förskjuta effektiva priser med 10–30 %.

Relaterade kalkylatorer

AI Model Cost Calculator — Jämför API-priser för 100+ LLM:er inklusive GPT-4o, Claude, Gemini och Llama. Beräkna exakta tokenkostnader.
AI vs Human ROI Calculator — Jämför AI-verktygskostnader mot mänskligt arbete. Månatliga besparingar, årlig ROI och break-even med live-modellpriser.
Prompt Cost Calculator — Klistra in din förfrågan, välj en modell och se omedelbart hur många tokens den använder och vad det kostar att skicka.