Comment fonctionnent les prix des API LLM
Les LLM facturent par million tokens, séparément pour input (votre prompt + contexte) et output (ce que le modèle renvoie). La sortie est généralement 3 à 5 fois plus chère que l'entrée. Un token équivaut à environ 4 caractères en anglais ou trois quarts de mot.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Le paysage des prix en 2026
Trois niveaux ont émergé :
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — meilleur raisonnement, vision et contexte long
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % de la qualité de frontière à 10–20 % du prix
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — parfaits pour étiquetage, classification et chat simple
Où se trouve réellement l'économie
Le prix est le levier facile ; architectural levers move 2–10× more cost :
- Prompt caching — les prompts système et le contexte RAG répétés sont mis en cache à environ 10 % du prix normal. Un taux de hits cache de 70 %+ est réaliste dans les apps chat et les agents. Réduit la facture d'entrée de 75 % à 90 %.
- Batch API — 50 % de remise pour des travaux pouvant attendre 24 heures. Parfait pour les backfills, les évaluations et les pipelines de traitement de documents.
- Tiered routing — envoyez les tours simples à un modèle bon marché et escaladez vers un modèle frontière seulement si nécessaire. Réduit de moitié le coût mélangé des assistants typiques.
- Reasoning budgets — sur la série o et Claude avec pensée étendue, limitez les tokens de raisonnement. Le raisonnement par défaut peut multiplier le coût de sortie par 5 à 10.
- Self-hosted open weights — Llama 3.3 70B sur un seul H100 coûte ~0,20 $/M tokens à 80 %+ d'utilisation ; ne vaut le coup qu'au-delà de ~50M tokens/jour.
Comment lire le tableau comparatif
Le tableau est trié par dépense mensuelle avec vos paramètres. La plupart des apps sont input-heavy (RAG, longs documents, prompts système), où le prix d'entrée domine le coût total. Les apps style chat avec prompts courts et longues réponses sont output-heavy — où le prix de sortie domine.
Autres considérations de coût
- Context window: contexte plus long = meilleure récupération mais plus de tokens d'entrée = coût plus élevé
- Vision / image input: les images sont converties en tokens (typiquement entre 200 et 1200 par image)
- Tool use / function calls: les définitions de tools comptent comme entrée à chaque tour sauf en cache
- Fine-tuning: quote d'entraînement + inférence typiquement à 2 à 4 fois le prix du modèle de base
Combinez avec notre Prompt Cost Calculator pour estimer un prompt spécifique, la AI Model Cost Calculator pour des scénarios au niveau projet et la AI ROI Calculator pour comparer le coût LLM au coût de la main-d'œuvre humaine qu'il remplace.
Calculatrices associées
- AI Model Cost Calculator — Comparez les prix API de plus de 100 LLM, y compris GPT-4o, Claude, Gemini et Llama. Calculez les coûts exacts par tokens.
- AI vs Human ROI Calculator — Comparez le coût des outils IA face à la main-d'œuvre humaine. Économies mensuelles, ROI annuel et point d'équilibre avec prix de modèles en direct.
- Prompt Cost Calculator — Collez votre prompt, choisissez un modèle et voyez instantanément combien de tokens il utilise et combien coûte son envoi.