🤖 Comparador de costes de LLM

Coste lado a lado de las principales API de LLM. Los precios se obtienen en directo de OpenRouter y se almacenan en caché durante 24 horas — abarca Claude Opus, GPT, Gemini, Llama, DeepSeek y más.

Cargando modelos desde OpenRouter…
¿Prefijo repetido? El 70 %+ es realista.
ℹ️ Datos de OpenRouter (caché en el navegador de 24 h). Los precios pueden diferir ligeramente de los precios directos del proveedor porque OpenRouter aplica un pequeño margen. La entrada en caché es aproximadamente el 10 % del precio normal de entrada (Anthropic / OpenAI). Las API por lotes están a aproximadamente el 50 % del precio estándar. Los modelos de razonamiento (serie o, Claude con pensamiento extendido) facturan los tokens de razonamiento como salida. Si la fuente en directo no está disponible, recurrimos a los precios de lista de mayo de 2026.

Cómo funcionan los precios de las API de LLM

Los LLM cobran por million tokens, por separado por input (tu prompt + contexto) y output (lo que el modelo devuelve). La salida suele ser entre 3 y 5 veces más cara que la entrada. Un token equivale aproximadamente a 4 caracteres en inglés o tres cuartas partes de una palabra.

Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)

El panorama de precios en 2026

Han surgido tres niveles:

  • Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — mejor razonamiento, visión y contexto largo
  • Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % de la calidad frontera por el 10–20 % del precio
  • Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (vía Groq/Together) — perfectos para etiquetado, clasificación y chat sencillo

Dónde está realmente el ahorro

El precio es la palanca fácil; architectural levers move 2–10× more cost:

  • Prompt caching — los prompts de sistema y el contexto RAG repetidos se almacenan en caché a aproximadamente el 10 % del precio normal. Una tasa de acierto de caché del 70 %+ es realista en apps de chat y agentes. Reduce la factura de entrada entre un 75 % y un 90 %.
  • Batch API — 50 % de descuento para trabajos que pueden esperar hasta 24 horas. Perfecta para backfills, evaluaciones y pipelines de procesado de documentos.
  • Tiered routing — envía turnos sencillos a un modelo barato y escala a uno frontera solo cuando hace falta. Reduce a la mitad el coste mezclado de los asistentes típicos.
  • Reasoning budgets — en la serie o y en Claude con pensamiento extendido, limita los tokens de razonamiento. El razonamiento por defecto puede multiplicar el coste de salida entre 5 y 10 veces.
  • Self-hosted open weights — Llama 3.3 70B en un único H100 cuesta ~0,20 $/M de tokens con utilización del 80 %+; solo merece la pena por encima de ~50M tokens/día.

Cómo leer la tabla comparativa

La tabla se ordena por gasto mensual con tus parámetros. La mayoría de apps son input-heavy (RAG, documentos largos, prompts de sistema), donde el precio de entrada domina el coste total. Las apps tipo chat con prompts cortos y respuestas largas son output-heavy — donde domina el precio de salida.

Otras consideraciones de coste

  • Context window: contexto más largo = mejor recuperación pero más tokens de entrada = mayor coste
  • Vision / image input: las imágenes se convierten en tokens (normalmente entre 200 y 1200 por imagen)
  • Tool use / function calls: las definiciones de tools cuentan como entrada en cada turno salvo que estén en caché
  • Fine-tuning: cuota de entrenamiento + inferencia a normalmente entre 2 y 4 veces el precio del modelo base

Combínalo con nuestra Prompt Cost Calculator para estimar un prompt concreto, la AI Model Cost Calculator para escenarios a nivel de proyecto y la AI ROI Calculator para comparar el coste del LLM con el coste de la mano de obra humana que sustituye.

⚠️
Nota importante: Precios correctos a mayo de 2026 y sujetos a cambios frecuentes. Confirma siempre en la página oficial de precios del proveedor (Anthropic, OpenAI, Google AI, Together, DeepSeek) antes de comprometerte con un contrato. Los descuentos por volumen, los precios regionales y los márgenes de Azure/Bedrock pueden mover las tarifas efectivas entre un 10 % y un 30 %.

Calculadoras relacionadas

  • AI Model Cost Calculator — Compara precios de API de más de 100 LLMs, incluidos GPT-4o, Claude, Gemini y Llama. Calcula costes exactos por tokens.
  • AI vs Human ROI Calculator — Compara el coste de herramientas de IA frente a la mano de obra humana. Ahorro mensual, ROI anual y punto de equilibrio con precios de modelos en directo.
  • Prompt Cost Calculator — Pega tu prompt, elige un modelo y consulta al instante cuántos tokens utiliza y cuánto cuesta enviarlo.