🤖 Comparador de Custos de LLM

Custo lado a lado em todas as principais APIs de LLM. Preços obtidos ao vivo do OpenRouter e armazenados em cache por 24 horas — inclui Claude Opus, GPT, Gemini, Llama, DeepSeek e mais.

Carregando modelos do OpenRouter…
Prefixo repetido? 70%+ realista.
ℹ️ Obtido do OpenRouter (cache de 24h no navegador). Os preços podem diferir ligeiramente do preço direto do provedor, pois o OpenRouter cobra uma pequena margem. O input em cache custa ~10% do preço normal de input (Anthropic / OpenAI). O preço da API em lote é ~50% do padrão. Modelos de raciocínio (série o, Claude com pensamento estendido) cobram tokens de raciocínio como output. Se o feed ao vivo estiver inacessível, usamos os preços de tabela de maio de 2026.

Como Funciona a Precificação de API de LLM

Os LLMs cobram por million tokens, separadamente para input (seu prompt + contexto) e output (o que o modelo escreve de volta). O output é tipicamente 3–5× mais caro do que o input. Um token equivale a aproximadamente 4 caracteres em inglês ou ¾ de uma palavra.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

O Panorama de Preços de 2026

Três níveis surgiram:

  • Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — melhor raciocínio, visão computacional, contexto longo
  • Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% da qualidade de ponta, 10–20% do preço
  • Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfeito para marcação, classificação, bate-papo simples

Onde Estão as Economias Reais

A precificação é a alavanca fácil; architectural levers move 2–10× more cost:

  • Prompt caching — prompts de sistema repetidos e contexto RAG armazenados em cache a ~10% do preço normal. Taxa de acerto de cache de 70%+ é realista para aplicações de chat/agente. Reduz a conta de entrada em 75–90%.
  • Batch API — 50% de desconto para trabalhos que podem aguardar até 24h. Perfeito para preenchimentos, avaliações, pipelines de processamento de documentos.
  • Tiered routing — envie turnos simples para um modelo barato e escale apenas para um modelo de ponta quando necessário. Reduz pela metade o custo misturado para assistentes típicos.
  • Reasoning budgets — para a série o e o Claude com pensamento estendido, limite os tokens de raciocínio. O pensamento padrão pode inflar o custo de output 5–10×.
  • Self-hosted open weights — Llama 3.3 70B em um único H100 custa ~$0,20/M tokens a 80%+ de utilização; só vale a pena acima de ~50M tokens/dia.

Lendo a Tabela de Comparação

A tabela classifica por gasto mensal com seus inputs. A maioria dos apps é input-heavy (RAG, documentos longos, prompts de sistema), onde o preço de input domina o custo total. Apps de chat com prompts curtos e completions longas são output-heavy — o preço de output domina.

Outras Considerações de Custo

  • Context window: contexto mais longo = melhor recuperação, mas mais tokens de entrada = custo mais alto
  • Vision / image input: imagens se convertem em tokens (tipicamente 200–1.200 por imagem)
  • Tool use / function calls: definições de ferramentas contam como input a cada turno, a menos que estejam em cache
  • Fine-tuning: taxa de treinamento + inferência tipicamente a 2–4× o preço do modelo base

Combine com nossa Prompt Cost Calculator para estimar um prompt específico, a AI Model Cost Calculator para cenários de nível de projeto, e a AI ROI Calculator para comparar o custo de LLM com o custo de mão de obra humana que ela substitui.

⚠️
Nota Importante: Preços precisos em maio de 2026 e sujeitos a alterações frequentes. Confirme sempre na página de preços oficial do provedor (Anthropic, OpenAI, Google AI, Together, DeepSeek) antes de firmar um contrato. Descontos por volume, preços regionais e margens do Azure/Bedrock podem alterar as taxas efetivas em 10–30%.

Calculadoras Relacionadas

  • AI Model Cost Calculator — Compare preços de API para mais de 100 LLMs incluindo GPT-4o, Claude, Gemini e Llama. Calcule custos exatos por token.
  • AI vs Human ROI Calculator — Compare os custos de ferramentas de IA com a mão de obra humana. Economias mensais, ROI anual e ponto de equilíbrio com preços atualizados dos modelos.
  • Prompt Cost Calculator — Cole seu prompt, escolha um modelo e veja instantaneamente quantos tokens ele usa e quanto custa enviá-lo.