Wie LLM-API-Preise funktionieren
LLMs berechnen pro million tokens, getrennt für input (Ihr Prompt + Kontext) und output (was das Modell zurückschreibt). Output ist typischerweise 3–5× teurer als Input. Ein Token entspricht etwa 4 englischen Zeichen oder ¾ eines Wortes.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Die Preislandschaft 2026
Drei Stufen haben sich herausgebildet:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — bestes Reasoning, Vision, langer Kontext
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % der Frontier-Qualität, 10–20 % des Preises
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfekt für Tagging, Klassifizierung, einfachen Chat
Wo die echten Einsparungen liegen
Die Preise sind der einfache Hebel; architectural levers move 2–10× more cost:
- Prompt caching — wiederholte System-Prompts und RAG-Kontexte werden zu ~10 % des Normalpreises zwischengespeichert. 70 %+ Cache-Trefferquote ist für Chat-/Agent-Apps realistisch. Senkt die Input-Rechnung um 75–90 %.
- Batch API — 50 % Rabatt für Jobs, die bis zu 24 Stunden warten können. Perfekt für Backfills, Auswertungen, Dokumentenverarbeitungspipelines.
- Tiered routing — einfache Anfragen an ein günstiges Modell senden und nur bei Bedarf auf ein Frontier-Modell eskalieren. Halbiert die gemischten Kosten typischer Assistenten.
- Reasoning budgets — für o-Serie und Claude Extended Thinking die Thinking-Token begrenzen. Standard-Thinking kann die Output-Kosten um das 5–10-fache aufblähen.
- Self-hosted open weights — Llama 3.3 70B auf einer einzelnen H100 kostet ~$0,20/M Token bei 80 %+ Auslastung; lohnt sich nur ab ~50M Token/Tag.
Die Vergleichstabelle lesen
Die Tabelle sortiert nach Monatsausgaben bei Ihren Inputs. Die meisten Apps sind input-heavy (RAG, lange Dokumente, System-Prompts), bei denen der Input-Preis die Gesamtkosten dominiert. Chat-artige Apps mit kurzen Prompts und langen Antworten sind output-heavy — der Output-Preis dominiert.
Weitere Kostenüberlegungen
- Context window: längerer Kontext = bessere Retrieval-Qualität, aber mehr Input-Token = höhere Kosten
- Vision / image input: Bilder werden in Token umgewandelt (typischerweise 200–1.200 pro Bild)
- Tool use / function calls: Tool-Definitionen zählen bei jeder Runde als Input, sofern sie nicht gecacht sind
- Fine-tuning: Trainingsgebühr + Inferenz zu typischerweise 2–4× des Basismodellpreises
Kombinieren Sie mit unserem Prompt Cost Calculator zur Schätzung eines spezifischen Prompts, dem AI Model Cost Calculator für Szenarien auf Projektebene und dem AI ROI Calculator zum Vergleich der LLM-Kosten mit den ersetzten Personalkosten.
Verwandte Rechner
- AI Model Cost Calculator — API-Preise von 100+ LLMs vergleichen, darunter GPT-4o, Claude, Gemini und Llama. Exakte Token-Kosten berechnen.
- AI vs Human ROI Calculator — Kosten von KI-Tools mit menschlicher Arbeit vergleichen. Monatliche Einsparungen, jährliches ROI und Break-Even mit aktuellen Modellpreisen.
- Prompt Cost Calculator — Fügen Sie Ihren Prompt ein, wählen Sie ein Modell, und sehen Sie sofort, wie viele Tokens er verbraucht und was er beim Senden kostet.