Como Funciona a Precificação de API de LLM
Os LLMs cobram por million tokens, separadamente para input (seu prompt + contexto) e output (o que o modelo escreve de volta). O output é tipicamente 3–5× mais caro do que o input. Um token equivale a aproximadamente 4 caracteres em inglês ou ¾ de uma palavra.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
O Panorama de Preços de 2026
Três níveis surgiram:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — melhor raciocínio, visão computacional, contexto longo
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90% da qualidade de ponta, 10–20% do preço
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (via Groq/Together) — perfeito para marcação, classificação, bate-papo simples
Onde Estão as Economias Reais
A precificação é a alavanca fácil; architectural levers move 2–10× more cost:
- Prompt caching — prompts de sistema repetidos e contexto RAG armazenados em cache a ~10% do preço normal. Taxa de acerto de cache de 70%+ é realista para aplicações de chat/agente. Reduz a conta de entrada em 75–90%.
- Batch API — 50% de desconto para trabalhos que podem aguardar até 24h. Perfeito para preenchimentos, avaliações, pipelines de processamento de documentos.
- Tiered routing — envie turnos simples para um modelo barato e escale apenas para um modelo de ponta quando necessário. Reduz pela metade o custo misturado para assistentes típicos.
- Reasoning budgets — para a série o e o Claude com pensamento estendido, limite os tokens de raciocínio. O pensamento padrão pode inflar o custo de output 5–10×.
- Self-hosted open weights — Llama 3.3 70B em um único H100 custa ~$0,20/M tokens a 80%+ de utilização; só vale a pena acima de ~50M tokens/dia.
Lendo a Tabela de Comparação
A tabela classifica por gasto mensal com seus inputs. A maioria dos apps é input-heavy (RAG, documentos longos, prompts de sistema), onde o preço de input domina o custo total. Apps de chat com prompts curtos e completions longas são output-heavy — o preço de output domina.
Outras Considerações de Custo
- Context window: contexto mais longo = melhor recuperação, mas mais tokens de entrada = custo mais alto
- Vision / image input: imagens se convertem em tokens (tipicamente 200–1.200 por imagem)
- Tool use / function calls: definições de ferramentas contam como input a cada turno, a menos que estejam em cache
- Fine-tuning: taxa de treinamento + inferência tipicamente a 2–4× o preço do modelo base
Combine com nossa Prompt Cost Calculator para estimar um prompt específico, a AI Model Cost Calculator para cenários de nível de projeto, e a AI ROI Calculator para comparar o custo de LLM com o custo de mão de obra humana que ela substitui.
Calculadoras Relacionadas
- AI Model Cost Calculator — Compare preços de API para mais de 100 LLMs incluindo GPT-4o, Claude, Gemini e Llama. Calcule custos exatos por token.
- AI vs Human ROI Calculator — Compare os custos de ferramentas de IA com a mão de obra humana. Economias mensais, ROI anual e ponto de equilíbrio com preços atualizados dos modelos.
- Prompt Cost Calculator — Cole seu prompt, escolha um modelo e veja instantaneamente quantos tokens ele usa e quanto custa enviá-lo.