🤖 Komparator Biaya LLM

Perbandingan biaya di semua API LLM terkemuka. Harga diambil langsung dari OpenRouter dan dicache selama 24 jam — mencakup Claude Opus, GPT, Gemini, Llama, DeepSeek, dan lainnya.

Memuat model dari OpenRouter…
Awalan berulang? 70%+ realistis.
Bersumber dari OpenRouter (cache browser 24 jam). Harga mungkin sedikit berbeda dari harga penyedia langsung karena OpenRouter mengambil margin kecil. Input yang di-cache adalah ~10% dari harga input normal (Anthropic / OpenAI). Harga Batch API adalah ~50% dari standar. Model reasoning (seri o, Claude dengan extended thinking) menagih token thinking sebagai output. Jika feed langsung tidak dapat dijangkau, kami menggunakan harga daftar Mei 2026.

Cara Penetapan Harga API LLM Bekerja

LLM menagih per million tokens, secara terpisah untuk input (prompt + konteks Anda) dan output (apa yang ditulis model sebagai balasan). Output biasanya 3–5× lebih mahal dari input. Satu token adalah sekitar 4 karakter bahasa Inggris atau ¾ dari sebuah kata.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Lanskap Harga 2026

Tiga tingkatan telah muncul:

  • Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — penalaran terbaik, visi, konteks panjang
  • Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% kualitas frontier, 10–20% dari harga
  • Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (melalui Groq/Together) — sempurna untuk penandaan, klasifikasi, obrolan sederhana

Di Mana Penghematan Nyata Berada

Penetapan harga adalah tuas termudah; architectural levers move 2–10× more cost:

  • Prompt caching — prompt sistem berulang dan konteks RAG di-cache dengan ~10% dari harga normal. Tingkat hit cache 70%+ realistis untuk aplikasi chat / agen. Memangkas tagihan masukan 75–90%.
  • Batch API — diskon 50% untuk pekerjaan yang bisa menunggu hingga 24 jam. Sempurna untuk backfill, evaluasi, pipeline pemrosesan dokumen.
  • Tiered routing — kirim giliran sederhana ke model murah dan hanya eskalasi ke model frontier jika diperlukan. Memangkas setengah biaya campuran untuk asisten tipikal.
  • Reasoning budgets — untuk seri o dan Claude extended thinking, batasi token thinking. Thinking default dapat menggelembungkan biaya output 5–10×.
  • Self-hosted open weights — Llama 3.3 70B pada satu H100 adalah ~$0,20/M token dengan utilisasi 80%+; hanya sepadan di atas ~50 juta token/hari.

Membaca Tabel Perbandingan

Tabel diurutkan berdasarkan pengeluaran bulanan pada input Anda. Sebagian besar aplikasi adalah input-heavy (RAG, dokumen panjang, prompt sistem), di mana harga input mendominasi total biaya. Aplikasi bergaya obrolan dengan prompt pendek dan penyelesaian panjang adalah output-heavy — harga output mendominasi.

Pertimbangan Biaya Lainnya

  • Context window: konteks lebih panjang = pengambilan lebih baik tetapi token input lebih banyak = biaya lebih tinggi
  • Vision / image input: gambar dikonversi ke token (biasanya 200–1.200 per gambar)
  • Tool use / function calls: definisi alat dihitung sebagai input pada setiap giliran kecuali jika di-cache
  • Fine-tuning: biaya pelatihan + inferensi biasanya 2–4× harga model dasar

Padukan dengan Prompt Cost Calculator untuk memperkirakan prompt tertentu, AI Model Cost Calculator untuk skenario tingkat proyek, dan AI ROI Calculator untuk membandingkan biaya LLM dengan biaya tenaga manusia yang digantikannya.

⚠️
Catatan Penting: Harga akurat per Mei 2026 dan sering berubah. Selalu konfirmasi di halaman harga resmi penyedia (Anthropic, OpenAI, Google AI, Together, DeepSeek) sebelum berkomitmen pada kontrak. Diskon volume, harga regional, dan margin Azure/Bedrock dapat menggeser tarif efektif 10–30%.

Kalkulator Terkait

  • AI Model Cost Calculator — Bandingkan harga API untuk 100+ LLM termasuk GPT-4o, Claude, Gemini, dan Llama. Hitung biaya token yang tepat.
  • AI vs Human ROI Calculator — Bandingkan biaya alat AI dengan tenaga manusia. Penghematan bulanan, ROI tahunan, dan titik impas dengan harga model langsung.
  • Prompt Cost Calculator — Tempel prompt Anda, pilih model, dan lihat secara instan berapa banyak token yang digunakan dan berapa biayanya untuk mengirim.