A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 مقارن تكلفة نماذج اللغة الكبيرة

تكلفة جنباً إلى جنب عبر جميع واجهات LLM API الرائدة. يتم جلب الأسعار مباشرة من OpenRouter وتخزينها لمدة 24 ساعة — تشمل Claude Opus وGPT وGemini وLlama وDeepSeek والمزيد.

جارٍ تحميل النماذج من OpenRouter…

متوسط الرموز المدخلة / الاستدعاء

متوسط رموز الإخراج / المكالمة

مكالمات في اليوم

معدل إصابة ذاكرة التخزين المؤقت (%)بادئة متكررة؟ 70%+ واقعي.

ℹ️ مصدر من OpenRouter (ذاكرة تخزين مؤقت للمتصفح لمدة 24 ساعة). قد تختلف الأسعار قليلاً عن أسعار المزودين المباشرة لأن OpenRouter يأخذ هامشاً صغيراً. الإدخال المخزن مؤقتاً ~10% من سعر الإدخال العادي (Anthropic / OpenAI). تسعير Batch API ~50% من المعيار. نماذج التفكير (سلسلة o، Claude مع التفكير الموسّع) تفوتر رموز التفكير كمخرجات. إذا تعذّر الوصول إلى البيانات المباشرة نعود إلى أسعار قائمة مايو 2026.

كيف تعمل أسعار واجهة برمجة تطبيقات نماذج اللغة الكبيرة

تفرض نماذج اللغة الكبيرة رسوماً لكل million tokens، بشكل منفصل لـinput (موجّهك + السياق) وoutput (ما يكتبه النموذج للرد). عادةً ما يكون الإخراج أغلى 3–5 أضعاف من الإدخال. الرمز هو ما يعادل تقريباً 4 أحرف إنجليزية أو ¾ كلمة.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

مشهد الأسعار 2026

ظهرت ثلاثة مستويات:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7 وGPT-5 وGemini 3.1 Pro — أفضل استدلال ورؤية وسياق طويل
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6 وGPT-5 mini وGemini 2.5 Flash — 90% من جودة الحدود، 10–20% من السعر
Budget ($0.10–$1 / 1M): Claude Haiku 4.5 وGPT-5 nano وDeepSeek V3 وLlama 3.3 70B (عبر Groq/Together) — مثالي للوسم والتصنيف والمحادثة البسيطة

أين تعيش المدخرات الحقيقية

التسعير هو الرافعة السهلة؛ architectural levers move 2–10× more cost:

Prompt caching — مطالبات النظام المتكررة وسياق RAG مخزنة مؤقتًا بسعر ~10٪ من السعر العادي. معدل ضرب ذاكرة التخزين المؤقت بنسبة 70٪+ واقعي لتطبيقات الدردشة / الوكيل. يخفض فاتورة الإدخال بنسبة 75-90٪.
Batch API — خصم 50% للوظائف التي يمكن الانتظار حتى 24 ساعة. مثالي لعمليات التعبئة والتقييم ومعالجة الوثائق.
Tiered routing — أرسل الأدوار البسيطة إلى نموذج رخيص وارفع فقط إلى نموذج الحدود عند الحاجة. يُخفّض نصف التكلفة المدمجة للمساعدين النموذجيين.
Reasoning budgets — بالنسبة لنماذج o-series وClaude وتفكير موسّع، ضع سقفًا لرموز التفكير. يمكن أن يزيد التفكير الافتراضي من تكلفة الإخراج بمقدار 5–10 أضعاف.
Self-hosted open weights — Llama 3.3 70B على H100 واحد بـ ~$0.20/مليون رمز عند استخدام 80%+؛ تستحق فقط فوق ~50 مليون رمز/يوم.

قراءة جدول المقارنة

يرتّب الجدول حسب الإنفاق الشهري عند مدخلاتك. معظم التطبيقات input-heavy (RAG، مستندات طويلة، موجّهات النظام)، حيث يهيمن سعر الإدخال على التكلفة الإجمالية. تطبيقات المحادثة ذات المطالبات القصيرة والإكمالات الطويلة هي output-heavy — سعر الإخراج يهيمن.

اعتبارات تكاليف أخرى

Context window: سياق أطول = استرداد أفضل ولكن المزيد من رموز الإدخال = تكلفة أعلى
Vision / image input: تتحول الصور إلى رموز (عادةً 200–1,200 لكل صورة)
Tool use / function calls: تعريفات الأدوات تُحسب كمدخلات في كل دور ما لم تكن محفوظة في الذاكرة المؤقتة
Fine-tuning: رسوم التدريب + الاستدلال بسعر يساوي عادةً 2–4× سعر النموذج الأساسي

اقرن مع Prompt Cost Calculator لدينا لتقدير مطالبة محددة، AI Model Cost Calculator للسيناريوهات على مستوى المشروع، و AI ROI Calculator لمقارنة تكلفة LLM مقابل تكلفة العمل البشرية التي تستبدلها.

⚠️

ملاحظة مهمة: الأسعار دقيقة اعتباراً من مايو 2026 وتتغير بشكل متكرر. أكّد دائماً على صفحة التسعير الرسمية للمزود (Anthropic وOpenAI وGoogle AI وTogether وDeepSeek) قبل الالتزام بعقد. يمكن للخصومات على الحجم والتسعير الإقليمي وهوامش Azure/Bedrock أن تغير المعدلات الفعلية بنسبة 10–30%.

حاسبات ذات صلة

AI Model Cost Calculator — قارن أسعار API لـ 100+ LLM بما في ذلك GPT-4o، Claude، Gemini و Llama. احسب تكاليف الرموز الدقيقة.
AI vs Human ROI Calculator — قارن تكاليف أدوات الذكاء الاصطناعي مقابل العمل البشري. المدخرات الشهرية، ROI السنوي ونقطة التعادل بأسعار النموذج المباشرة.
Prompt Cost Calculator — الصق مطالبتك، اختر نموذجًا، وانظر على الفور عدد الرموز التي يستخدمها وما تكلفته للإرسال.