A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 LLM-Kostenvergleich

Side-by-Side-Kosten für alle führenden LLM-APIs. Preise werden live von OpenRouter abgerufen und 24 Stunden zwischengespeichert — deckt Claude Opus, GPT, Gemini, Llama, DeepSeek und mehr ab.

Modelle werden von OpenRouter geladen…

Durchschnittliche Input-Token pro Aufruf

Durchschnittliche Output-Token pro Aufruf

Aufrufe pro Tag

Cache-Trefferquote (%)Wiederholtes Präfix? 70 %+ ist realistisch.

ℹ️ Daten von OpenRouter (24-Stunden-Browser-Cache). Die Preise können leicht von den direkten Anbieterpreisen abweichen, da OpenRouter eine kleine Marge erhebt. Cached Input liegt bei ~10 % des normalen Input-Preises (Anthropic / OpenAI). Batch-API-Preise liegen bei ~50 % des Standards. Reasoning-Modelle (o-Serie, Claude mit Extended Thinking) berechnen Thinking-Token als Output. Falls der Live-Feed nicht erreichbar ist, fallen wir auf die Listenpreise von Mai 2026 zurück.

Wie LLM-API-Preise funktionieren

LLMs berechnen pro million tokens, getrennt für input (Ihr Prompt + Kontext) und output (was das Modell zurückschreibt). Output ist typischerweise 3–5× teurer als Input. Ein Token entspricht etwa 4 englischen Zeichen oder ¾ eines Wortes.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Die Preislandschaft 2026

Drei Stufen haben sich herausgebildet:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — bestes Reasoning, Vision, langer Kontext
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % der Frontier-Qualität, 10–20 % des Preises
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfekt für Tagging, Klassifizierung, einfachen Chat

Wo die echten Einsparungen liegen

Die Preise sind der einfache Hebel; architectural levers move 2–10× more cost:

Prompt caching — wiederholte System-Prompts und RAG-Kontexte werden zu ~10 % des Normalpreises zwischengespeichert. 70 %+ Cache-Trefferquote ist für Chat-/Agent-Apps realistisch. Senkt die Input-Rechnung um 75–90 %.
Batch API — 50 % Rabatt für Jobs, die bis zu 24 Stunden warten können. Perfekt für Backfills, Auswertungen, Dokumentenverarbeitungspipelines.
Tiered routing — einfache Anfragen an ein günstiges Modell senden und nur bei Bedarf auf ein Frontier-Modell eskalieren. Halbiert die gemischten Kosten typischer Assistenten.
Reasoning budgets — für o-Serie und Claude Extended Thinking die Thinking-Token begrenzen. Standard-Thinking kann die Output-Kosten um das 5–10-fache aufblähen.
Self-hosted open weights — Llama 3.3 70B auf einer einzelnen H100 kostet ~$0,20/M Token bei 80 %+ Auslastung; lohnt sich nur ab ~50M Token/Tag.

Die Vergleichstabelle lesen

Die Tabelle sortiert nach Monatsausgaben bei Ihren Inputs. Die meisten Apps sind input-heavy (RAG, lange Dokumente, System-Prompts), bei denen der Input-Preis die Gesamtkosten dominiert. Chat-artige Apps mit kurzen Prompts und langen Antworten sind output-heavy — der Output-Preis dominiert.

Weitere Kostenüberlegungen

Context window: längerer Kontext = bessere Retrieval-Qualität, aber mehr Input-Token = höhere Kosten
Vision / image input: Bilder werden in Token umgewandelt (typischerweise 200–1.200 pro Bild)
Tool use / function calls: Tool-Definitionen zählen bei jeder Runde als Input, sofern sie nicht gecacht sind
Fine-tuning: Trainingsgebühr + Inferenz zu typischerweise 2–4× des Basismodellpreises

Kombinieren Sie mit unserem Prompt Cost Calculator zur Schätzung eines spezifischen Prompts, dem AI Model Cost Calculator für Szenarien auf Projektebene und dem AI ROI Calculator zum Vergleich der LLM-Kosten mit den ersetzten Personalkosten.

⚠️

Wichtiger Hinweis: Preise sind Stand Mai 2026 und ändern sich häufig. Bestätigen Sie sie immer auf der offiziellen Preisseite des Anbieters (Anthropic, OpenAI, Google AI, Together, DeepSeek), bevor Sie einen Vertrag abschließen. Mengenrabatte, regionale Preise und Azure-/Bedrock-Margen können die effektiven Tarife um 10–30 % verschieben.