A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 Confronto Costi LLM

Costi a confronto per tutte le principali API LLM. I prezzi vengono recuperati live da OpenRouter e memorizzati nella cache per 24 ore — copre Claude Opus, GPT, Gemini, Llama, DeepSeek e altri.

Caricamento modelli da OpenRouter…

Token medi di input / chiamata

Token medi di output / chiamata

Chiamate al giorno

Tasso di cache hit (%)Prefisso ripetuto? 70%+ realistico.

ℹ️ Fonte OpenRouter (cache browser di 24 ore). I prezzi possono differire leggermente dai prezzi diretti del fornitore poiché OpenRouter prende un piccolo margine. L'input in cache è ~10% del prezzo normale di input (Anthropic / OpenAI). I prezzi Batch API sono ~50% dello standard. I modelli di reasoning (serie o, Claude con extended thinking) fatturano i token di pensiero come output. Se il feed live non è raggiungibile, ripieghiamo sui prezzi di listino di maggio 2026.

Come Funzionano i Prezzi delle API LLM

Gli LLM addebitano per million tokens, separatamente per input (il tuo prompt + contesto) e output (quello che il modello scrive in risposta). L'output è tipicamente 3–5× più costoso dell'input. Un token è approssimativamente 4 caratteri inglesi o ¾ di una parola.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Il Panorama dei Prezzi 2026

Sono emerse tre fasce:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — miglior reasoning, visione, contesto lungo
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% della qualità di frontiera, 10–20% del prezzo
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfetti per tagging, classificazione, chat semplice

Dove Si Trovano i Veri Risparmi

I prezzi sono la leva facile; architectural levers move 2–10× more cost:

Prompt caching — i prompt di sistema ripetuti e il contesto RAG vengono memorizzati nella cache a ~10% del prezzo normale. Il 70%+ di tasso di cache hit è realistico per app di chat / agente. Riduce la fattura di input del 75–90%.
Batch API — sconto del 50% per lavori che possono attendere fino a 24 ore. Perfetto per backfill, valutazioni, pipeline di elaborazione documenti.
Tiered routing — invia turni semplici a un modello economico e fai escalation a un modello di frontiera solo quando necessario. Dimezza il costo combinato per assistenti tipici.
Reasoning budgets — per la serie o e l'extended thinking di Claude, limita i token di pensiero. Il pensiero predefinito può gonfiare il costo di output di 5–10×.
Self-hosted open weights — Llama 3.3 70B su una singola H100 costa ~$0,20/M token all'80%+ di utilizzo; vale la pena solo sopra ~50M token/giorno.

Leggere la Tabella di Confronto

La tabella ordina per spesa mensile in base ai tuoi input. La maggior parte delle app sono input-heavy (RAG, documenti lunghi, prompt di sistema), dove il prezzo di input domina il costo totale. Le app in stile chat con prompt brevi e completamenti lunghi sono output-heavy — il prezzo di output domina.

Altre Considerazioni sui Costi

Context window: contesto più lungo = miglior retrieval ma più token di input = costo più alto
Vision / image input: le immagini si convertono in token (tipicamente 200–1.200 per immagine)
Tool use / function calls: le definizioni degli strumenti contano come input ad ogni turno a meno che non siano in cache
Fine-tuning: tassa di addestramento + inferenza tipicamente a 2–4× il prezzo del modello base

Abbina con il nostro Prompt Cost Calculator per stimare un prompt specifico, il AI Model Cost Calculator per scenari a livello di progetto e il AI ROI Calculator per confrontare i costi LLM con il costo del lavoro umano che sostituiscono.

⚠️

Nota importante: Prezzi accurati a maggio 2026 e cambiano frequentemente. Conferma sempre sulla pagina ufficiale dei prezzi del fornitore (Anthropic, OpenAI, Google AI, Together, DeepSeek) prima di impegnarsi in un contratto. Sconti per volume, prezzi regionali e margini Azure/Bedrock possono spostare le tariffe effettive del 10–30%.

Calcolatori correlati

AI Model Cost Calculator — Confronta i prezzi API per 100+ LLM inclusi GPT-4o, Claude, Gemini e Llama. Calcola i costi esatti dei token.
AI vs Human ROI Calculator — Confronta i costi degli strumenti AI con i costi del lavoro umano. Risparmi mensili, ROI annuale e pareggio con prezzi modello live.
Prompt Cost Calculator — Incolla il tuo prompt, scegli un modello e vedi immediatamente quanti token usa e quanto costa inviarlo.