A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 Comparador de Custos de LLM

Custo lado a lado em todas as principais APIs de LLM. Preços obtidos ao vivo do OpenRouter e armazenados em cache por 24 horas — inclui Claude Opus, GPT, Gemini, Llama, DeepSeek e mais.

Carregando modelos do OpenRouter…

Média de tokens de entrada / chamada

Média de tokens de saída / chamada

Chamadas por dia

Taxa de acerto de cache (%)Prefixo repetido? 70%+ realista.

ℹ️ Obtido do OpenRouter (cache de 24h no navegador). Os preços podem diferir ligeiramente do preço direto do provedor, pois o OpenRouter cobra uma pequena margem. O input em cache custa ~10% do preço normal de input (Anthropic / OpenAI). O preço da API em lote é ~50% do padrão. Modelos de raciocínio (série o, Claude com pensamento estendido) cobram tokens de raciocínio como output. Se o feed ao vivo estiver inacessível, usamos os preços de tabela de maio de 2026.

Como Funciona a Precificação de API de LLM

Os LLMs cobram por million tokens, separadamente para input (seu prompt + contexto) e output (o que o modelo escreve de volta). O output é tipicamente 3–5× mais caro do que o input. Um token equivale a aproximadamente 4 caracteres em inglês ou ¾ de uma palavra.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

O Panorama de Preços de 2026

Três níveis surgiram:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — melhor raciocínio, visão computacional, contexto longo
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% da qualidade de ponta, 10–20% do preço
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfeito para marcação, classificação, bate-papo simples

Onde Estão as Economias Reais

A precificação é a alavanca fácil; architectural levers move 2–10× more cost:

Prompt caching — prompts de sistema repetidos e contexto RAG armazenados em cache a ~10% do preço normal. Taxa de acerto de cache de 70%+ é realista para aplicações de chat/agente. Reduz a conta de entrada em 75–90%.
Batch API — 50% de desconto para trabalhos que podem aguardar até 24h. Perfeito para preenchimentos, avaliações, pipelines de processamento de documentos.
Tiered routing — envie turnos simples para um modelo barato e escale apenas para um modelo de ponta quando necessário. Reduz pela metade o custo misturado para assistentes típicos.
Reasoning budgets — para a série o e o Claude com pensamento estendido, limite os tokens de raciocínio. O pensamento padrão pode inflar o custo de output 5–10×.
Self-hosted open weights — Llama 3.3 70B em um único H100 custa ~$0,20/M tokens a 80%+ de utilização; só vale a pena acima de ~50M tokens/dia.

Lendo a Tabela de Comparação

A tabela classifica por gasto mensal com seus inputs. A maioria dos apps é input-heavy (RAG, documentos longos, prompts de sistema), onde o preço de input domina o custo total. Apps de chat com prompts curtos e completions longas são output-heavy — o preço de output domina.

Outras Considerações de Custo

Context window: contexto mais longo = melhor recuperação, mas mais tokens de entrada = custo mais alto
Vision / image input: imagens se convertem em tokens (tipicamente 200–1.200 por imagem)
Tool use / function calls: definições de ferramentas contam como input a cada turno, a menos que estejam em cache
Fine-tuning: taxa de treinamento + inferência tipicamente a 2–4× o preço do modelo base

Combine com nossa Prompt Cost Calculator para estimar um prompt específico, a AI Model Cost Calculator para cenários de nível de projeto, e a AI ROI Calculator para comparar o custo de LLM com o custo de mão de obra humana que ela substitui.

⚠️

Nota Importante: Preços precisos em maio de 2026 e sujeitos a alterações frequentes. Confirme sempre na página de preços oficial do provedor (Anthropic, OpenAI, Google AI, Together, DeepSeek) antes de firmar um contrato. Descontos por volume, preços regionais e margens do Azure/Bedrock podem alterar as taxas efetivas em 10–30%.

Calculadoras Relacionadas

AI Model Cost Calculator — Compare preços de API para mais de 100 LLMs incluindo GPT-4o, Claude, Gemini e Llama. Calcule custos exatos por token.
AI vs Human ROI Calculator — Compare os custos de ferramentas de IA com a mão de obra humana. Economias mensais, ROI anual e ponto de equilíbrio com preços atualizados dos modelos.
Prompt Cost Calculator — Cole seu prompt, escolha um modelo e veja instantaneamente quantos tokens ele usa e quanto custa enviá-lo.