A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 Komparator Biaya LLM

Perbandingan biaya di semua API LLM terkemuka. Harga diambil langsung dari OpenRouter dan dicache selama 24 jam — mencakup Claude Opus, GPT, Gemini, Llama, DeepSeek, dan lainnya.

Memuat model dari OpenRouter…

Rata-rata token input / panggilan

Rata-rata token output / panggilan

Panggilan per hari

Tingkat hit cache (%)Awalan berulang? 70%+ realistis.

Bersumber dari OpenRouter (cache browser 24 jam). Harga mungkin sedikit berbeda dari harga penyedia langsung karena OpenRouter mengambil margin kecil. Input yang di-cache adalah ~10% dari harga input normal (Anthropic / OpenAI). Harga Batch API adalah ~50% dari standar. Model reasoning (seri o, Claude dengan extended thinking) menagih token thinking sebagai output. Jika feed langsung tidak dapat dijangkau, kami menggunakan harga daftar Mei 2026.

Cara Penetapan Harga API LLM Bekerja

LLM menagih per million tokens, secara terpisah untuk input (prompt + konteks Anda) dan output (apa yang ditulis model sebagai balasan). Output biasanya 3–5× lebih mahal dari input. Satu token adalah sekitar 4 karakter bahasa Inggris atau ¾ dari sebuah kata.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Lanskap Harga 2026

Tiga tingkatan telah muncul:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — penalaran terbaik, visi, konteks panjang
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% kualitas frontier, 10–20% dari harga
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (melalui Groq/Together) — sempurna untuk penandaan, klasifikasi, obrolan sederhana

Di Mana Penghematan Nyata Berada

Penetapan harga adalah tuas termudah; architectural levers move 2–10× more cost:

Prompt caching — prompt sistem berulang dan konteks RAG di-cache dengan ~10% dari harga normal. Tingkat hit cache 70%+ realistis untuk aplikasi chat / agen. Memangkas tagihan masukan 75–90%.
Batch API — diskon 50% untuk pekerjaan yang bisa menunggu hingga 24 jam. Sempurna untuk backfill, evaluasi, pipeline pemrosesan dokumen.
Tiered routing — kirim giliran sederhana ke model murah dan hanya eskalasi ke model frontier jika diperlukan. Memangkas setengah biaya campuran untuk asisten tipikal.
Reasoning budgets — untuk seri o dan Claude extended thinking, batasi token thinking. Thinking default dapat menggelembungkan biaya output 5–10×.
Self-hosted open weights — Llama 3.3 70B pada satu H100 adalah ~$0,20/M token dengan utilisasi 80%+; hanya sepadan di atas ~50 juta token/hari.

Membaca Tabel Perbandingan

Tabel diurutkan berdasarkan pengeluaran bulanan pada input Anda. Sebagian besar aplikasi adalah input-heavy (RAG, dokumen panjang, prompt sistem), di mana harga input mendominasi total biaya. Aplikasi bergaya obrolan dengan prompt pendek dan penyelesaian panjang adalah output-heavy — harga output mendominasi.

Pertimbangan Biaya Lainnya

Context window: konteks lebih panjang = pengambilan lebih baik tetapi token input lebih banyak = biaya lebih tinggi
Vision / image input: gambar dikonversi ke token (biasanya 200–1.200 per gambar)
Tool use / function calls: definisi alat dihitung sebagai input pada setiap giliran kecuali jika di-cache
Fine-tuning: biaya pelatihan + inferensi biasanya 2–4× harga model dasar

Padukan dengan Prompt Cost Calculator untuk memperkirakan prompt tertentu, AI Model Cost Calculator untuk skenario tingkat proyek, dan AI ROI Calculator untuk membandingkan biaya LLM dengan biaya tenaga manusia yang digantikannya.

⚠️

Catatan Penting: Harga akurat per Mei 2026 dan sering berubah. Selalu konfirmasi di halaman harga resmi penyedia (Anthropic, OpenAI, Google AI, Together, DeepSeek) sebelum berkomitmen pada kontrak. Diskon volume, harga regional, dan margin Azure/Bedrock dapat menggeser tarif efektif 10–30%.

Kalkulator Terkait

AI Model Cost Calculator — Bandingkan harga API untuk 100+ LLM termasuk GPT-4o, Claude, Gemini, dan Llama. Hitung biaya token yang tepat.
AI vs Human ROI Calculator — Bandingkan biaya alat AI dengan tenaga manusia. Penghematan bulanan, ROI tahunan, dan titik impas dengan harga model langsung.
Prompt Cost Calculator — Tempel prompt Anda, pilih model, dan lihat secara instan berapa banyak token yang digunakan dan berapa biayanya untuk mengirim.