A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 LLM Maliyet Karşılaştırıcısı

Tüm önde gelen LLM API'lerinde yan yana maliyet. Fiyatlandırma OpenRouter'dan canlı olarak alınır ve 24 saat önbelleğe alınır — Claude Opus, GPT, Gemini, Llama, DeepSeek ve daha fazlasını kapsar.

Modeller OpenRouter'dan yükleniyor…

Ort. girdi tokeni / çağrı

Çağrı başına ortalama çıktı token'ı

Günlük arama sayısı

Önbellek isabet oranı (%)Tekrarlanan önek? %70+ gerçekçi.

ℹ️ Kaynak: OpenRouter (24 saatlik tarayıcı önbelleği). Fiyatlar, OpenRouter küçük bir marj aldığından doğrudan sağlayıcı fiyatlandırmasından biraz farklı olabilir. Önbelleğe alınan girdi, normal girdi fiyatının ~%10'udur (Anthropic / OpenAI). Toplu API fiyatlandırması standartın ~%50'sidir. Akıl yürütme modelleri (o-serisi, genişletilmiş düşünmeli Claude) düşünme tokenlarını çıktı olarak faturalandırır. Canlı akış erişilemez durumdaysa Mayıs 2026 liste fiyatlarına geri döneriz.

LLM API Fiyatlandırması Nasıl Çalışır

LLM'ler, million tokens başına ayrı olarak input (istem + bağlam) ve output (modelin geri yazdıkları) için ücret alır. Çıktı tipik olarak girdiden 3–5 kat daha pahalıdır. Bir token, yaklaşık 4 İngilizce karakter veya bir kelimenin ¾'üdür.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

2026 Fiyat Manzarası

Üç katman ortaya çıkmıştır:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — en iyi akıl yürütme, görü, uzun bağlam
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — sınır kalitesinin %90'ı, fiyatın %10–20'si
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (Groq/Together aracılığıyla) — etiketleme, sınıflandırma, basit sohbet için mükemmel

Gerçek Tasarrufların Yaşadığı Yer

Fiyatlandırma kolay kaldıraçtır; architectural levers move 2–10× more cost:

Prompt caching — Tekrar eden sistem promptları ve RAG bağlamı normal fiyatın yaklaşık %10'unda önbelleğe alınır. Chat / ajan uygulamaları için %70+ önbellek isabet oranı gerçekçidir. Giriş faturasını %75–90 azaltır.
Batch API — 24 saate kadar bekleyebilen işler için %50 indirim. Arka plan dolguları, değerlendirmeler, belge işleme hatları için idealdir.
Tiered routing — basit yanıtları ucuz bir modele gönderin ve yalnızca gerektiğinde sınır modeline yükseltin. Tipik asistanlar için karışık maliyeti yarıya indirir.
Reasoning budgets — o serisi ve Claude genişletilmiş düşünme için düşünme tokenlarını sınırlayın. Varsayılan düşünme çıkış maliyetini 5–10 kat artırabilir.
Self-hosted open weights — Tek bir H100 üzerinde Llama 3.3 70B, %80'in üzerinde kullanımda ~0,20 $/M tokendır; yalnızca günde ~50M tokenın üzerinde değerlidir.

Karşılaştırma Tablosunu Okuma

Tablo, girdilerinizde aylık harcamaya göre sıralanır. Çoğu uygulama input-heavy türündendir (RAG, uzun belgeler, sistem istemleri), girdi fiyatının toplam maliyete hakim olduğu. Kısa istemler ve uzun tamamlamalar içeren sohbet tarzı uygulamalar output-heavy türündendir — çıktı fiyatı hakimdir.

Diğer Maliyet Hususları

Context window: daha uzun bağlam = daha iyi alma ama daha fazla giriş token = daha yüksek maliyet
Vision / image input: görseller token'lara dönüşür (genellikle görsel başına 200–1.200)
Tool use / function calls: araç tanımları, önbelleğe alınmadıkça her turda giriş olarak sayılır
Fine-tuning: eğitim ücreti + genellikle temel model fiyatının 2–4 katı çıkarım

Belirli bir promptu tahmin etmek için Prompt Cost Calculator'ımız, proje düzeyindeki senaryolar için AI Model Cost Calculator ve LLM maliyetini değiştirdiği insan-iş gücü maliyetine karşı karşılaştırmak için AI ROI Calculator ile eşleştirin.

⚠️

Önemli Not: Fiyatlar Mayıs 2026 itibarıyla geçerlidir ve sık sık değişmektedir. Bir sözleşme yapmadan önce her zaman sağlayıcının resmi fiyatlandırma sayfasını (Anthropic, OpenAI, Google AI, Together, DeepSeek) teyit edin. Toplu indirimler, bölgesel fiyatlandırma ve Azure/Bedrock marjları efektif oranları %10–30 oranında değiştirebilir.

İlgili Hesap Makineleri

AI Model Cost Calculator — GPT-4o, Claude, Gemini ve Llama dahil 100+ LLM için API fiyatlarını karşılaştırın. Kesin token maliyetlerini hesaplayın.
AI vs Human ROI Calculator — AI araç maliyetlerini insan iş gücüne karşı karşılaştırın. Aylık tasarruf, yıllık ROI ve canlı model fiyatlandırması ile başabaş.
Prompt Cost Calculator — Promptunuzu yapıştırın, bir model seçin ve hemen kaç token kullandığını ve göndermenin maliyetini görün.