🤖 Confronto Costi LLM

Costi a confronto per tutte le principali API LLM. I prezzi vengono recuperati live da OpenRouter e memorizzati nella cache per 24 ore — copre Claude Opus, GPT, Gemini, Llama, DeepSeek e altri.

Caricamento modelli da OpenRouter…
Prefisso ripetuto? 70%+ realistico.
ℹ️ Fonte OpenRouter (cache browser di 24 ore). I prezzi possono differire leggermente dai prezzi diretti del fornitore poiché OpenRouter prende un piccolo margine. L'input in cache è ~10% del prezzo normale di input (Anthropic / OpenAI). I prezzi Batch API sono ~50% dello standard. I modelli di reasoning (serie o, Claude con extended thinking) fatturano i token di pensiero come output. Se il feed live non è raggiungibile, ripieghiamo sui prezzi di listino di maggio 2026.

Come Funzionano i Prezzi delle API LLM

Gli LLM addebitano per million tokens, separatamente per input (il tuo prompt + contesto) e output (quello che il modello scrive in risposta). L'output è tipicamente 3–5× più costoso dell'input. Un token è approssimativamente 4 caratteri inglesi o ¾ di una parola.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

Il Panorama dei Prezzi 2026

Sono emerse tre fasce:

  • Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — miglior reasoning, visione, contesto lungo
  • Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% della qualità di frontiera, 10–20% del prezzo
  • Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfetti per tagging, classificazione, chat semplice

Dove Si Trovano i Veri Risparmi

I prezzi sono la leva facile; architectural levers move 2–10× more cost:

  • Prompt caching — i prompt di sistema ripetuti e il contesto RAG vengono memorizzati nella cache a ~10% del prezzo normale. Il 70%+ di tasso di cache hit è realistico per app di chat / agente. Riduce la fattura di input del 75–90%.
  • Batch API — sconto del 50% per lavori che possono attendere fino a 24 ore. Perfetto per backfill, valutazioni, pipeline di elaborazione documenti.
  • Tiered routing — invia turni semplici a un modello economico e fai escalation a un modello di frontiera solo quando necessario. Dimezza il costo combinato per assistenti tipici.
  • Reasoning budgets — per la serie o e l'extended thinking di Claude, limita i token di pensiero. Il pensiero predefinito può gonfiare il costo di output di 5–10×.
  • Self-hosted open weights — Llama 3.3 70B su una singola H100 costa ~$0,20/M token all'80%+ di utilizzo; vale la pena solo sopra ~50M token/giorno.

Leggere la Tabella di Confronto

La tabella ordina per spesa mensile in base ai tuoi input. La maggior parte delle app sono input-heavy (RAG, documenti lunghi, prompt di sistema), dove il prezzo di input domina il costo totale. Le app in stile chat con prompt brevi e completamenti lunghi sono output-heavy — il prezzo di output domina.

Altre Considerazioni sui Costi

  • Context window: contesto più lungo = miglior retrieval ma più token di input = costo più alto
  • Vision / image input: le immagini si convertono in token (tipicamente 200–1.200 per immagine)
  • Tool use / function calls: le definizioni degli strumenti contano come input ad ogni turno a meno che non siano in cache
  • Fine-tuning: tassa di addestramento + inferenza tipicamente a 2–4× il prezzo del modello base

Abbina con il nostro Prompt Cost Calculator per stimare un prompt specifico, il AI Model Cost Calculator per scenari a livello di progetto e il AI ROI Calculator per confrontare i costi LLM con il costo del lavoro umano che sostituiscono.

⚠️
Nota importante: Prezzi accurati a maggio 2026 e cambiano frequentemente. Conferma sempre sulla pagina ufficiale dei prezzi del fornitore (Anthropic, OpenAI, Google AI, Together, DeepSeek) prima di impegnarsi in un contratto. Sconti per volume, prezzi regionali e margini Azure/Bedrock possono spostare le tariffe effettive del 10–30%.

Calcolatori correlati

  • AI Model Cost Calculator — Confronta i prezzi API per 100+ LLM inclusi GPT-4o, Claude, Gemini e Llama. Calcola i costi esatti dei token.
  • AI vs Human ROI Calculator — Confronta i costi degli strumenti AI con i costi del lavoro umano. Risparmi mensili, ROI annuale e pareggio con prezzi modello live.
  • Prompt Cost Calculator — Incolla il tuo prompt, scegli un modello e vedi immediatamente quanti token usa e quanto costa inviarlo.