A token is a chunk of text the model reads or writes — roughly 4 characters or ¾ of a word in English. So 1,000 tokens ≈ 750 words. LLMs charge separately for input tokens (your prompt + context) and output tokens (the response). Output is typically 3–5× more expensive per million tokens.

How is API cost calculated?

Cost = (input tokens × input price per 1M) + (output tokens × output price per 1M). Example: 100K input + 30K output on Claude Opus 4.7 ($15 in / $75 out per 1M) = (100,000/1,000,000 × $15) + (30,000/1,000,000 × $75) = $1.50 + $2.25 = $3.75 per call.

Which LLM has the best cost-to-quality ratio?

For most tasks (May 2026): Claude Haiku 4.5, Gemini 2.5 Flash and GPT-5 nano are the value picks. For frontier reasoning, Claude Opus 4.7 and GPT-5 lead — at 5–10× the cost. DeepSeek V3 and Llama 3.3 70B (via Together / Groq) offer 80% of the quality at 10–20% of the cost. Match the model to the task — don't pay frontier prices for tagging or summarisation.

How does prompt caching reduce cost?

All major providers now offer prompt caching: repeated input prefixes (system prompts, RAG context, document content) get charged ~10% of normal input price after the first call. For chat applications with long system prompts or RAG over fixed documents, caching can cut input costs by 75–90%. Anthropic charges 1.25× normal price to write a cache, then 0.1× to read.

What about batch pricing?

Batch APIs (OpenAI, Anthropic, Google) accept up to 24h-deferred jobs at a 50% discount. Perfect for offline workloads — backfills, evaluation runs, document processing. Worst case latency is 24 hours, often returns within 1–2 hours. Real-time chat can't use batch.

Where does the pricing data come from?

Pricing is fetched live from the OpenRouter API (openrouter.ai), which aggregates 100+ LLMs from OpenAI, Anthropic, Google, Meta, DeepSeek, Mistral and others. Data is cached in your browser for 24 hours, so the first load may take a moment but subsequent loads are instant. OpenRouter typically takes a small margin over direct provider pricing — for production budgets verify with the provider directly. If OpenRouter is unreachable we fall back to baked-in May 2026 list prices so the comparator always works.

🤖 Comparador de costes de LLM

Coste lado a lado de las principales API de LLM. Los precios se obtienen en directo de OpenRouter y se almacenan en caché durante 24 horas — abarca Claude Opus, GPT, Gemini, Llama, DeepSeek y más.

Cargando modelos desde OpenRouter…

Tokens medios de entrada por llamada

Tokens medios de salida por llamada

Llamadas por día

Tasa de acierto de caché (%)¿Prefijo repetido? El 70 %+ es realista.

ℹ️ Datos de OpenRouter (caché en el navegador de 24 h). Los precios pueden diferir ligeramente de los precios directos del proveedor porque OpenRouter aplica un pequeño margen. La entrada en caché es aproximadamente el 10 % del precio normal de entrada (Anthropic / OpenAI). Las API por lotes están a aproximadamente el 50 % del precio estándar. Los modelos de razonamiento (serie o, Claude con pensamiento extendido) facturan los tokens de razonamiento como salida. Si la fuente en directo no está disponible, recurrimos a los precios de lista de mayo de 2026.

Cómo funcionan los precios de las API de LLM

Los LLM cobran por million tokens, por separado por input (tu prompt + contexto) y output (lo que el modelo devuelve). La salida suele ser entre 3 y 5 veces más cara que la entrada. Un token equivale aproximadamente a 4 caracteres en inglés o tres cuartas partes de una palabra.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

El panorama de precios en 2026

Han surgido tres niveles:

Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — mejor razonamiento, visión y contexto largo
Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % de la calidad frontera por el 10–20 % del precio
Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (vía Groq/Together) — perfectos para etiquetado, clasificación y chat sencillo

Dónde está realmente el ahorro

El precio es la palanca fácil; architectural levers move 2–10× more cost:

Prompt caching — los prompts de sistema y el contexto RAG repetidos se almacenan en caché a aproximadamente el 10 % del precio normal. Una tasa de acierto de caché del 70 %+ es realista en apps de chat y agentes. Reduce la factura de entrada entre un 75 % y un 90 %.
Batch API — 50 % de descuento para trabajos que pueden esperar hasta 24 horas. Perfecta para backfills, evaluaciones y pipelines de procesado de documentos.
Tiered routing — envía turnos sencillos a un modelo barato y escala a uno frontera solo cuando hace falta. Reduce a la mitad el coste mezclado de los asistentes típicos.
Reasoning budgets — en la serie o y en Claude con pensamiento extendido, limita los tokens de razonamiento. El razonamiento por defecto puede multiplicar el coste de salida entre 5 y 10 veces.
Self-hosted open weights — Llama 3.3 70B en un único H100 cuesta ~0,20 $/M de tokens con utilización del 80 %+; solo merece la pena por encima de ~50M tokens/día.

Cómo leer la tabla comparativa

La tabla se ordena por gasto mensual con tus parámetros. La mayoría de apps son input-heavy (RAG, documentos largos, prompts de sistema), donde el precio de entrada domina el coste total. Las apps tipo chat con prompts cortos y respuestas largas son output-heavy — donde domina el precio de salida.

Otras consideraciones de coste

Context window: contexto más largo = mejor recuperación pero más tokens de entrada = mayor coste
Vision / image input: las imágenes se convierten en tokens (normalmente entre 200 y 1200 por imagen)
Tool use / function calls: las definiciones de tools cuentan como entrada en cada turno salvo que estén en caché
Fine-tuning: cuota de entrenamiento + inferencia a normalmente entre 2 y 4 veces el precio del modelo base

Combínalo con nuestra Prompt Cost Calculator para estimar un prompt concreto, la AI Model Cost Calculator para escenarios a nivel de proyecto y la AI ROI Calculator para comparar el coste del LLM con el coste de la mano de obra humana que sustituye.

⚠️

Nota importante: Precios correctos a mayo de 2026 y sujetos a cambios frecuentes. Confirma siempre en la página oficial de precios del proveedor (Anthropic, OpenAI, Google AI, Together, DeepSeek) antes de comprometerte con un contrato. Los descuentos por volumen, los precios regionales y los márgenes de Azure/Bedrock pueden mover las tarifas efectivas entre un 10 % y un 30 %.

Calculadoras relacionadas

AI Model Cost Calculator — Compara precios de API de más de 100 LLMs, incluidos GPT-4o, Claude, Gemini y Llama. Calcula costes exactos por tokens.
AI vs Human ROI Calculator — Compara el coste de herramientas de IA frente a la mano de obra humana. Ahorro mensual, ROI anual y punto de equilibrio con precios de modelos en directo.
Prompt Cost Calculator — Pega tu prompt, elige un modelo y consulta al instante cuántos tokens utiliza y cuánto cuesta enviarlo.