A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 Comparateur de coûts LLM

Coût côte à côte des principales API LLM. Les prix sont obtenus en direct depuis OpenRouter et mis en cache 24 heures — couvre Claude Opus, GPT, Gemini, Llama, DeepSeek et plus.

Chargement des modèles depuis OpenRouter…

Tokens moyens d'entrée par appel

Tokens moyens de sortie par appel

Appels par jour

Taux de hits cache (%)Préfixe répété ? 70 %+ est réaliste.

ℹ️ Données d'OpenRouter (cache navigateur 24 h). Les prix peuvent légèrement différer des prix directs du fournisseur car OpenRouter applique une petite marge. L'entrée en cache est environ 10 % du prix normal d'entrée (Anthropic / OpenAI). Les API par lots sont à environ 50 % du prix standard. Les modèles de raisonnement (série o, Claude avec pensée étendue) facturent les tokens de raisonnement comme sortie. Si la source en direct n'est pas disponible, nous nous rabattons sur les prix de liste de mai 2026.

Comment fonctionnent les prix des API LLM

Les LLM facturent par million tokens, séparément pour input (votre prompt + contexte) et output (ce que le modèle renvoie). La sortie est généralement 3 à 5 fois plus chère que l'entrée. Un token équivaut à environ 4 caractères en anglais ou trois quarts de mot.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Le paysage des prix en 2026

Trois niveaux ont émergé :

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — meilleur raisonnement, vision et contexte long
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % de la qualité de frontière à 10–20 % du prix
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — parfaits pour étiquetage, classification et chat simple

Où se trouve réellement l'économie

Le prix est le levier facile ; architectural levers move 2–10× more cost :

Prompt caching — les prompts système et le contexte RAG répétés sont mis en cache à environ 10 % du prix normal. Un taux de hits cache de 70 %+ est réaliste dans les apps chat et les agents. Réduit la facture d'entrée de 75 % à 90 %.
Batch API — 50 % de remise pour des travaux pouvant attendre 24 heures. Parfait pour les backfills, les évaluations et les pipelines de traitement de documents.
Tiered routing — envoyez les tours simples à un modèle bon marché et escaladez vers un modèle frontière seulement si nécessaire. Réduit de moitié le coût mélangé des assistants typiques.
Reasoning budgets — sur la série o et Claude avec pensée étendue, limitez les tokens de raisonnement. Le raisonnement par défaut peut multiplier le coût de sortie par 5 à 10.
Self-hosted open weights — Llama 3.3 70B sur un seul H100 coûte ~0,20 $/M tokens à 80 %+ d'utilisation ; ne vaut le coup qu'au-delà de ~50M tokens/jour.

Comment lire le tableau comparatif

Le tableau est trié par dépense mensuelle avec vos paramètres. La plupart des apps sont input-heavy (RAG, longs documents, prompts système), où le prix d'entrée domine le coût total. Les apps style chat avec prompts courts et longues réponses sont output-heavy — où le prix de sortie domine.

Autres considérations de coût

Context window: contexte plus long = meilleure récupération mais plus de tokens d'entrée = coût plus élevé
Vision / image input: les images sont converties en tokens (typiquement entre 200 et 1200 par image)
Tool use / function calls: les définitions de tools comptent comme entrée à chaque tour sauf en cache
Fine-tuning: quote d'entraînement + inférence typiquement à 2 à 4 fois le prix du modèle de base

Combinez avec notre Prompt Cost Calculator pour estimer un prompt spécifique, la AI Model Cost Calculator pour des scénarios au niveau projet et la AI ROI Calculator pour comparer le coût LLM au coût de la main-d'œuvre humaine qu'il remplace.

⚠️

Remarque importante : Prix corrects à mai 2026 et sujets à changements fréquents. Confirmez toujours sur la page officielle de prix du fournisseur (Anthropic, OpenAI, Google AI, Together, DeepSeek) avant de vous engager. Les remises sur volume, les prix régionaux et les marges Azure/Bedrock peuvent faire bouger les tarifs effectifs de 10 % à 30 %.

Calculatrices associées

AI Model Cost Calculator — Comparez les prix API de plus de 100 LLM, y compris GPT-4o, Claude, Gemini et Llama. Calculez les coûts exacts par tokens.
AI vs Human ROI Calculator — Comparez le coût des outils IA face à la main-d'œuvre humaine. Économies mensuelles, ROI annuel et point d'équilibre avec prix de modèles en direct.
Prompt Cost Calculator — Collez votre prompt, choisissez un modèle et voyez instantanément combien de tokens il utilise et combien coûte son envoi.