Cara Penetapan Harga API LLM Bekerja
LLM menagih per million tokens, secara terpisah untuk input (prompt + konteks Anda) dan output (apa yang ditulis model sebagai balasan). Output biasanya 3–5× lebih mahal dari input. Satu token adalah sekitar 4 karakter bahasa Inggris atau ¾ dari sebuah kata.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Lanskap Harga 2026
Tiga tingkatan telah muncul:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — penalaran terbaik, visi, konteks panjang
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% kualitas frontier, 10–20% dari harga
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (melalui Groq/Together) — sempurna untuk penandaan, klasifikasi, obrolan sederhana
Di Mana Penghematan Nyata Berada
Penetapan harga adalah tuas termudah; architectural levers move 2–10× more cost:
- Prompt caching — prompt sistem berulang dan konteks RAG di-cache dengan ~10% dari harga normal. Tingkat hit cache 70%+ realistis untuk aplikasi chat / agen. Memangkas tagihan masukan 75–90%.
- Batch API — diskon 50% untuk pekerjaan yang bisa menunggu hingga 24 jam. Sempurna untuk backfill, evaluasi, pipeline pemrosesan dokumen.
- Tiered routing — kirim giliran sederhana ke model murah dan hanya eskalasi ke model frontier jika diperlukan. Memangkas setengah biaya campuran untuk asisten tipikal.
- Reasoning budgets — untuk seri o dan Claude extended thinking, batasi token thinking. Thinking default dapat menggelembungkan biaya output 5–10×.
- Self-hosted open weights — Llama 3.3 70B pada satu H100 adalah ~$0,20/M token dengan utilisasi 80%+; hanya sepadan di atas ~50 juta token/hari.
Membaca Tabel Perbandingan
Tabel diurutkan berdasarkan pengeluaran bulanan pada input Anda. Sebagian besar aplikasi adalah input-heavy (RAG, dokumen panjang, prompt sistem), di mana harga input mendominasi total biaya. Aplikasi bergaya obrolan dengan prompt pendek dan penyelesaian panjang adalah output-heavy — harga output mendominasi.
Pertimbangan Biaya Lainnya
- Context window: konteks lebih panjang = pengambilan lebih baik tetapi token input lebih banyak = biaya lebih tinggi
- Vision / image input: gambar dikonversi ke token (biasanya 200–1.200 per gambar)
- Tool use / function calls: definisi alat dihitung sebagai input pada setiap giliran kecuali jika di-cache
- Fine-tuning: biaya pelatihan + inferensi biasanya 2–4× harga model dasar
Padukan dengan Prompt Cost Calculator untuk memperkirakan prompt tertentu, AI Model Cost Calculator untuk skenario tingkat proyek, dan AI ROI Calculator untuk membandingkan biaya LLM dengan biaya tenaga manusia yang digantikannya.
Kalkulator Terkait
- AI Model Cost Calculator — Bandingkan harga API untuk 100+ LLM termasuk GPT-4o, Claude, Gemini, dan Llama. Hitung biaya token yang tepat.
- AI vs Human ROI Calculator — Bandingkan biaya alat AI dengan tenaga manusia. Penghematan bulanan, ROI tahunan, dan titik impas dengan harga model langsung.
- Prompt Cost Calculator — Tempel prompt Anda, pilih model, dan lihat secara instan berapa banyak token yang digunakan dan berapa biayanya untuk mengirim.