Hur LLM API-prissättning fungerar
LLM:er debiterar per million tokens, separat för input (din prompt + kontext) och output (vad modellen skriver tillbaka). Utdata är vanligtvis 3–5 gånger dyrare än inmatning. En token är ungefär 4 engelska tecken eller ¾ av ett ord.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Prislandskapet 2026
Tre nivåer har uppstått:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro – bäst resonemang, vision, lång kontext
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % av frontlinjenivå, 10–20 % av priset
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfekt för taggning, klassificering, enkel chatt
Var de verkliga besparingarna finns
Prissättning är den enkla spaken; architectural levers move 2–10× more cost:
- Prompt caching — upprepade systemprompts och RAG-kontext cachade till ~10% av normalpriset. 70%+ cache-träfffrekvens är realistisk för chatt-/agentappar. Minskar indata-räkningen med 75–90%.
- Batch API — 50 % rabatt för jobb som kan vänta upp till 24 timmar. Perfekt för backfills, utvärderingar, dokumentbehandlingspipelines.
- Tiered routing — skicka enkla konversationer till en billig modell och eskalera bara till en frontmodell när det behövs. Halverar den blandade kostnaden för typiska assistenter.
- Reasoning budgets — för o-serien och Claude utökad resonemang, begränsa tankekedjor. Standard tankekedjor kan blåsa upp utdatakostnaden 5–10 gånger.
- Self-hosted open weights — Llama 3.3 70B på en enda H100 är ~0,20 $/M tokens med 80 %+ utnyttjandegrad; lönar sig bara vid >50 miljoner tokens/dag.
Läsa jämförelsetabellen
Tabellen sorterar efter månadsutgifter baserat på dina inmatningar. De flesta appar är input-heavy (RAG, långa dokument, systemprompt), där inmatningspriset dominerar totalkostnaden. Chatliknande appar med korta prompter och långa svar är output-heavy – utdatapriset dominerar.
Övriga kostnadsöverväganden
- Context window: längre kontext = bättre hämtning men fler inmatningstokens = högre kostnad
- Vision / image input: bilder omvandlas till tokens (vanligtvis 200–1 200 per bild)
- Tool use / function calls: verktygsdefinianer räknas som inmatning i varje tur om de inte är cachade
- Fine-tuning: träningsavgift + inferens till vanligtvis 2–4× baspriset
Para ihop med vår Prompt Cost Calculator för att uppskatta en specifik fråga, AI Model Cost Calculator för scenarier på projektnivå och AI ROI Calculator för att jämföra LLM-kostnad mot den mänskliga arbetskostnad den ersätter.
Relaterade kalkylatorer
- AI Model Cost Calculator — Jämför API-priser för 100+ LLM:er inklusive GPT-4o, Claude, Gemini och Llama. Beräkna exakta tokenkostnader.
- AI vs Human ROI Calculator — Jämför AI-verktygskostnader mot mänskligt arbete. Månatliga besparingar, årlig ROI och break-even med live-modellpriser.
- Prompt Cost Calculator — Klistra in din förfrågan, välj en modell och se omedelbart hur många tokens den använder och vad det kostar att skicka.