🤖 LLM-kostnadsjämförare

Kostnad sida vid sida för alla ledande LLM API:er. Prissättning hämtas live från OpenRouter och cachas i 24 timmar — täcker Claude Opus, GPT, Gemini, Llama, DeepSeek och mer.

Laddar modeller från OpenRouter…
Upprepat prefix? 70 %+ realistiskt.
ℹ️ Hämtat från OpenRouter (24-tim webbläsarcache). Priser kan skilja sig något från direktpriset hos leverantören eftersom OpenRouter tar en liten marginal. Cachad inmatning är ~10 % av normalt inmatningspris (Anthropic / OpenAI). Batch-API-prissättning är ~50 % av standardpriset. Reasoning-modeller (o-serien, Claude med utökad resonemang) fakturerar tankekedjor som utdata. Om live-flödet inte är tillgängligt faller vi tillbaka på listpriser från maj 2026.

Hur LLM API-prissättning fungerar

LLM:er debiterar per million tokens, separat för input (din prompt + kontext) och output (vad modellen skriver tillbaka). Utdata är vanligtvis 3–5 gånger dyrare än inmatning. En token är ungefär 4 engelska tecken eller ¾ av ett ord.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Prislandskapet 2026

Tre nivåer har uppstått:

  • Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro – bäst resonemang, vision, lång kontext
  • Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % av frontlinjenivå, 10–20 % av priset
  • Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfekt för taggning, klassificering, enkel chatt

Var de verkliga besparingarna finns

Prissättning är den enkla spaken; architectural levers move 2–10× more cost:

  • Prompt caching — upprepade systemprompts och RAG-kontext cachade till ~10% av normalpriset. 70%+ cache-träfffrekvens är realistisk för chatt-/agentappar. Minskar indata-räkningen med 75–90%.
  • Batch API — 50 % rabatt för jobb som kan vänta upp till 24 timmar. Perfekt för backfills, utvärderingar, dokumentbehandlingspipelines.
  • Tiered routing — skicka enkla konversationer till en billig modell och eskalera bara till en frontmodell när det behövs. Halverar den blandade kostnaden för typiska assistenter.
  • Reasoning budgets — för o-serien och Claude utökad resonemang, begränsa tankekedjor. Standard tankekedjor kan blåsa upp utdatakostnaden 5–10 gånger.
  • Self-hosted open weights — Llama 3.3 70B på en enda H100 är ~0,20 $/M tokens med 80 %+ utnyttjandegrad; lönar sig bara vid >50 miljoner tokens/dag.

Läsa jämförelsetabellen

Tabellen sorterar efter månadsutgifter baserat på dina inmatningar. De flesta appar är input-heavy (RAG, långa dokument, systemprompt), där inmatningspriset dominerar totalkostnaden. Chatliknande appar med korta prompter och långa svar är output-heavy – utdatapriset dominerar.

Övriga kostnadsöverväganden

  • Context window: längre kontext = bättre hämtning men fler inmatningstokens = högre kostnad
  • Vision / image input: bilder omvandlas till tokens (vanligtvis 200–1 200 per bild)
  • Tool use / function calls: verktygsdefinianer räknas som inmatning i varje tur om de inte är cachade
  • Fine-tuning: träningsavgift + inferens till vanligtvis 2–4× baspriset

Para ihop med vår Prompt Cost Calculator för att uppskatta en specifik fråga, AI Model Cost Calculator för scenarier på projektnivå och AI ROI Calculator för att jämföra LLM-kostnad mot den mänskliga arbetskostnad den ersätter.

⚠️
Viktig anmärkning: Priser korrekta per maj 2026 och ändras ofta. Bekräfta alltid på leverantörens officiella prissättningssida (Anthropic, OpenAI, Google AI, Together, DeepSeek) innan du ingår ett kontrakt. Volymrabatter, regionala priser och Azure/Bedrock-marginaler kan förskjuta effektiva priser med 10–30 %.

Relaterade kalkylatorer

  • AI Model Cost Calculator — Jämför API-priser för 100+ LLM:er inklusive GPT-4o, Claude, Gemini och Llama. Beräkna exakta tokenkostnader.
  • AI vs Human ROI Calculator — Jämför AI-verktygskostnader mot mänskligt arbete. Månatliga besparingar, årlig ROI och break-even med live-modellpriser.
  • Prompt Cost Calculator — Klistra in din förfrågan, välj en modell och se omedelbart hur många tokens den använder och vad det kostar att skicka.