A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 Comparator costuri LLM

Cost comparat pentru toate principalele API-uri LLM. Prețuri preluate live de pe OpenRouter și stocate în cache timp de 24 de ore — acoperă Claude Opus, GPT, Gemini, Llama, DeepSeek și altele.

Se încarcă modele din OpenRouter…

Medie tokeni intrare / apel

Tokeni medii ieșire / apel

Apeluri pe zi

Rata de accesare cache (%)Prefix repetat? 70%+ realist.

ℹ️ Sursa OpenRouter (cache browser 24h). Preturile pot diferi usor de preturile directe ale furnizorului, deoarece OpenRouter ia o marja mica. Intrarea stocata in cache este ~10% din pretul normal al intrarii (Anthropic / OpenAI). Pretul API-ului in lot este ~50% din cel standard. Modelele de rationament (seria o, Claude cu gandire extinsa) factureaza jetoanele de gandire ca iesire. Daca fluxul live nu este accesibil, ne bazam pe preturile din mai 2026.

Cum funcționează prețurile API LLM

LLM-urile percep pe million tokens, separat pentru input (promptul dvs. + context) si output (ce scrie modelul inapoi). Iesirea este de obicei de 3-5x mai scumpa decat intrarea. Un jeton este aproximativ 4 caractere englezesti sau trei sferturi dintr-un cuvant.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Peisajul Prețurilor 2026

Au apărut trei niveluri:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — cea mai bună raționare, viziune, context lung
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% din calitatea de vârf, 10-20% din preț
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (prin Groq/Together) — perfect pentru etichetare, clasificare, chat simplu

Unde Sunt Economiile Reale

Prețul este pârghia ușoară; architectural levers move 2–10× more cost:

Prompt caching — prompts de sistem repetate și context RAG cached la ~10% din prețul normal. Rata de cache hit de 70%+ este realistă pentru aplicații de chat / agent. Reduce factura de intrare cu 75-90%.
Batch API — reducere de 50% pentru lucrări care pot aștepta până la 24 de ore. Perfect pentru completări, evaluări, fluxuri de procesare a documentelor.
Tiered routing — trimiteți tururi simple la un model ieftin și escaladați la un model de frontieră doar când este necesar. Înjumătățește costul combinat pentru asistenți tipici.
Reasoning budgets — pentru modele de serie o și Claude cu gândire extinsă, limitați tokenii de gândire. Gândirea implicită poate crește costul ieșirii de 5–10×.
Self-hosted open weights — Llama 3.3 70B pe un singur H100 costă ~$0,20/M token-uri la 80%+ utilizare; merită doar peste ~50M token-uri/zi.

Citirea Tabelului de Comparație

Tabelul sorteaza dupa cheltuieli lunare la datele dvs. Cele mai multe aplicatii sunt input-heavy (RAG, documente lungi, prompturi de sistem), unde pretul de intrare domina costul total. Aplicatiile de tip chat cu prompturi scurte si completari lungi sunt output-heavy - pretul de iesire domina.

Alte Considerații de Cost

Context window: context mai lung = recuperare mai bună, dar mai mulți tokeni de intrare = cost mai mare
Vision / image input: imaginile se convertesc în tokenuri (de obicei 200–1.200 per imagine)
Tool use / function calls: definițiile instrumentelor contează ca intrare la fiecare tur dacă nu sunt stocate în cache
Fine-tuning: taxă de antrenament + inferență la de obicei 2–4× prețul modelului de bază

Asociați cu Prompt Cost Calculator pentru a estima un prompt specific, AI Model Cost Calculator pentru scenarii la nivel de proiect și AI ROI Calculator pentru a compara costul LLM cu costul forței de muncă umane pe care îl înlocuiește.

⚠️

Notă importantă: Prețurile precise începând cu mai 2026 și se schimbă frecvent. Confirmați întotdeauna pe pagina oficială de prețuri a furnizorului (Anthropic, OpenAI, Google AI, Together, DeepSeek) înainte de a vă angaja la un contract. Reducerile de volum, prețurile regionale și marjele Azure/Bedrock pot schimba ratele efective cu 10-30%.

Calculatoare Asociate

AI Model Cost Calculator — Comparați prețurile API pentru 100+ LLM-uri, inclusiv GPT-4o, Claude, Gemini și Llama. Calculați costurile exacte ale tokenilor.
AI vs Human ROI Calculator — Comparați costurile instrumentelor AI cu forța de muncă umană. Economii lunare, ROI anual și break-even cu prețuri live de model.
Prompt Cost Calculator — Lipiți prompt-ul, alegeți un model și vedeți instantaneu câți tokeni folosește și cât costă să-l trimiteți.