Come Funzionano i Prezzi delle API LLM
Gli LLM addebitano per million tokens, separatamente per input (il tuo prompt + contesto) e output (quello che il modello scrive in risposta). L'output è tipicamente 3–5× più costoso dell'input. Un token è approssimativamente 4 caratteri inglesi o ¾ di una parola.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
Il Panorama dei Prezzi 2026
Sono emerse tre fasce:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — miglior reasoning, visione, contesto lungo
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% della qualità di frontiera, 10–20% del prezzo
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfetti per tagging, classificazione, chat semplice
Dove Si Trovano i Veri Risparmi
I prezzi sono la leva facile; architectural levers move 2–10× more cost:
- Prompt caching — i prompt di sistema ripetuti e il contesto RAG vengono memorizzati nella cache a ~10% del prezzo normale. Il 70%+ di tasso di cache hit è realistico per app di chat / agente. Riduce la fattura di input del 75–90%.
- Batch API — sconto del 50% per lavori che possono attendere fino a 24 ore. Perfetto per backfill, valutazioni, pipeline di elaborazione documenti.
- Tiered routing — invia turni semplici a un modello economico e fai escalation a un modello di frontiera solo quando necessario. Dimezza il costo combinato per assistenti tipici.
- Reasoning budgets — per la serie o e l'extended thinking di Claude, limita i token di pensiero. Il pensiero predefinito può gonfiare il costo di output di 5–10×.
- Self-hosted open weights — Llama 3.3 70B su una singola H100 costa ~$0,20/M token all'80%+ di utilizzo; vale la pena solo sopra ~50M token/giorno.
Leggere la Tabella di Confronto
La tabella ordina per spesa mensile in base ai tuoi input. La maggior parte delle app sono input-heavy (RAG, documenti lunghi, prompt di sistema), dove il prezzo di input domina il costo totale. Le app in stile chat con prompt brevi e completamenti lunghi sono output-heavy — il prezzo di output domina.
Altre Considerazioni sui Costi
- Context window: contesto più lungo = miglior retrieval ma più token di input = costo più alto
- Vision / image input: le immagini si convertono in token (tipicamente 200–1.200 per immagine)
- Tool use / function calls: le definizioni degli strumenti contano come input ad ogni turno a meno che non siano in cache
- Fine-tuning: tassa di addestramento + inferenza tipicamente a 2–4× il prezzo del modello base
Abbina con il nostro Prompt Cost Calculator per stimare un prompt specifico, il AI Model Cost Calculator per scenari a livello di progetto e il AI ROI Calculator per confrontare i costi LLM con il costo del lavoro umano che sostituiscono.
Calcolatori correlati
- AI Model Cost Calculator — Confronta i prezzi API per 100+ LLM inclusi GPT-4o, Claude, Gemini e Llama. Calcola i costi esatti dei token.
- AI vs Human ROI Calculator — Confronta i costi degli strumenti AI con i costi del lavoro umano. Risparmi mensili, ROI annuale e pareggio con prezzi modello live.
- Prompt Cost Calculator — Incolla il tuo prompt, scegli un modello e vedi immediatamente quanti token usa e quanto costa inviarlo.