🤖 Comparateur de coûts LLM

Coût côte à côte des principales API LLM. Les prix sont obtenus en direct depuis OpenRouter et mis en cache 24 heures — couvre Claude Opus, GPT, Gemini, Llama, DeepSeek et plus.

Chargement des modèles depuis OpenRouter…
Préfixe répété ? 70 %+ est réaliste.
ℹ️ Données d'OpenRouter (cache navigateur 24 h). Les prix peuvent légèrement différer des prix directs du fournisseur car OpenRouter applique une petite marge. L'entrée en cache est environ 10 % du prix normal d'entrée (Anthropic / OpenAI). Les API par lots sont à environ 50 % du prix standard. Les modèles de raisonnement (série o, Claude avec pensée étendue) facturent les tokens de raisonnement comme sortie. Si la source en direct n'est pas disponible, nous nous rabattons sur les prix de liste de mai 2026.

Comment fonctionnent les prix des API LLM

Les LLM facturent par million tokens, séparément pour input (votre prompt + contexte) et output (ce que le modèle renvoie). La sortie est généralement 3 à 5 fois plus chère que l'entrée. Un token équivaut à environ 4 caractères en anglais ou trois quarts de mot.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Le paysage des prix en 2026

Trois niveaux ont émergé :

  • Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — meilleur raisonnement, vision et contexte long
  • Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % de la qualité de frontière à 10–20 % du prix
  • Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — parfaits pour étiquetage, classification et chat simple

Où se trouve réellement l'économie

Le prix est le levier facile ; architectural levers move 2–10× more cost :

  • Prompt caching — les prompts système et le contexte RAG répétés sont mis en cache à environ 10 % du prix normal. Un taux de hits cache de 70 %+ est réaliste dans les apps chat et les agents. Réduit la facture d'entrée de 75 % à 90 %.
  • Batch API — 50 % de remise pour des travaux pouvant attendre 24 heures. Parfait pour les backfills, les évaluations et les pipelines de traitement de documents.
  • Tiered routing — envoyez les tours simples à un modèle bon marché et escaladez vers un modèle frontière seulement si nécessaire. Réduit de moitié le coût mélangé des assistants typiques.
  • Reasoning budgets — sur la série o et Claude avec pensée étendue, limitez les tokens de raisonnement. Le raisonnement par défaut peut multiplier le coût de sortie par 5 à 10.
  • Self-hosted open weights — Llama 3.3 70B sur un seul H100 coûte ~0,20 $/M tokens à 80 %+ d'utilisation ; ne vaut le coup qu'au-delà de ~50M tokens/jour.

Comment lire le tableau comparatif

Le tableau est trié par dépense mensuelle avec vos paramètres. La plupart des apps sont input-heavy (RAG, longs documents, prompts système), où le prix d'entrée domine le coût total. Les apps style chat avec prompts courts et longues réponses sont output-heavy — où le prix de sortie domine.

Autres considérations de coût

  • Context window: contexte plus long = meilleure récupération mais plus de tokens d'entrée = coût plus élevé
  • Vision / image input: les images sont converties en tokens (typiquement entre 200 et 1200 par image)
  • Tool use / function calls: les définitions de tools comptent comme entrée à chaque tour sauf en cache
  • Fine-tuning: quote d'entraînement + inférence typiquement à 2 à 4 fois le prix du modèle de base

Combinez avec notre Prompt Cost Calculator pour estimer un prompt spécifique, la AI Model Cost Calculator pour des scénarios au niveau projet et la AI ROI Calculator pour comparer le coût LLM au coût de la main-d'œuvre humaine qu'il remplace.

⚠️
Remarque importante : Prix corrects à mai 2026 et sujets à changements fréquents. Confirmez toujours sur la page officielle de prix du fournisseur (Anthropic, OpenAI, Google AI, Together, DeepSeek) avant de vous engager. Les remises sur volume, les prix régionaux et les marges Azure/Bedrock peuvent faire bouger les tarifs effectifs de 10 % à 30 %.

Calculatrices associées

  • AI Model Cost Calculator — Comparez les prix API de plus de 100 LLM, y compris GPT-4o, Claude, Gemini et Llama. Calculez les coûts exacts par tokens.
  • AI vs Human ROI Calculator — Comparez le coût des outils IA face à la main-d'œuvre humaine. Économies mensuelles, ROI annuel et point d'équilibre avec prix de modèles en direct.
  • Prompt Cost Calculator — Collez votre prompt, choisissez un modèle et voyez instantanément combien de tokens il utilise et combien coûte son envoi.