كيف تعمل أسعار واجهة برمجة تطبيقات نماذج اللغة الكبيرة
تفرض نماذج اللغة الكبيرة رسوماً لكل million tokens، بشكل منفصل لـinput (موجّهك + السياق) وoutput (ما يكتبه النموذج للرد). عادةً ما يكون الإخراج أغلى 3–5 أضعاف من الإدخال. الرمز هو ما يعادل تقريباً 4 أحرف إنجليزية أو ¾ كلمة.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
مشهد الأسعار 2026
ظهرت ثلاثة مستويات:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7 وGPT-5 وGemini 3.1 Pro — أفضل استدلال ورؤية وسياق طويل
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6 وGPT-5 mini وGemini 2.5 Flash — 90% من جودة الحدود، 10–20% من السعر
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5 وGPT-5 nano وDeepSeek V3 وLlama 3.3 70B (عبر Groq/Together) — مثالي للوسم والتصنيف والمحادثة البسيطة
أين تعيش المدخرات الحقيقية
التسعير هو الرافعة السهلة؛ architectural levers move 2–10× more cost:
- Prompt caching — مطالبات النظام المتكررة وسياق RAG مخزنة مؤقتًا بسعر ~10٪ من السعر العادي. معدل ضرب ذاكرة التخزين المؤقت بنسبة 70٪+ واقعي لتطبيقات الدردشة / الوكيل. يخفض فاتورة الإدخال بنسبة 75-90٪.
- Batch API — خصم 50% للوظائف التي يمكن الانتظار حتى 24 ساعة. مثالي لعمليات التعبئة والتقييم ومعالجة الوثائق.
- Tiered routing — أرسل الأدوار البسيطة إلى نموذج رخيص وارفع فقط إلى نموذج الحدود عند الحاجة. يُخفّض نصف التكلفة المدمجة للمساعدين النموذجيين.
- Reasoning budgets — بالنسبة لنماذج o-series وClaude وتفكير موسّع، ضع سقفًا لرموز التفكير. يمكن أن يزيد التفكير الافتراضي من تكلفة الإخراج بمقدار 5–10 أضعاف.
- Self-hosted open weights — Llama 3.3 70B على H100 واحد بـ ~$0.20/مليون رمز عند استخدام 80%+؛ تستحق فقط فوق ~50 مليون رمز/يوم.
قراءة جدول المقارنة
يرتّب الجدول حسب الإنفاق الشهري عند مدخلاتك. معظم التطبيقات input-heavy (RAG، مستندات طويلة، موجّهات النظام)، حيث يهيمن سعر الإدخال على التكلفة الإجمالية. تطبيقات المحادثة ذات المطالبات القصيرة والإكمالات الطويلة هي output-heavy — سعر الإخراج يهيمن.
اعتبارات تكاليف أخرى
- Context window: سياق أطول = استرداد أفضل ولكن المزيد من رموز الإدخال = تكلفة أعلى
- Vision / image input: تتحول الصور إلى رموز (عادةً 200–1,200 لكل صورة)
- Tool use / function calls: تعريفات الأدوات تُحسب كمدخلات في كل دور ما لم تكن محفوظة في الذاكرة المؤقتة
- Fine-tuning: رسوم التدريب + الاستدلال بسعر يساوي عادةً 2–4× سعر النموذج الأساسي
اقرن مع Prompt Cost Calculator لدينا لتقدير مطالبة محددة، AI Model Cost Calculator للسيناريوهات على مستوى المشروع، و AI ROI Calculator لمقارنة تكلفة LLM مقابل تكلفة العمل البشرية التي تستبدلها.
حاسبات ذات صلة
- AI Model Cost Calculator — قارن أسعار API لـ 100+ LLM بما في ذلك GPT-4o، Claude، Gemini و Llama. احسب تكاليف الرموز الدقيقة.
- AI vs Human ROI Calculator — قارن تكاليف أدوات الذكاء الاصطناعي مقابل العمل البشري. المدخرات الشهرية، ROI السنوي ونقطة التعادل بأسعار النموذج المباشرة.
- Prompt Cost Calculator — الصق مطالبتك، اختر نموذجًا، وانظر على الفور عدد الرموز التي يستخدمها وما تكلفته للإرسال.