Cómo funcionan los precios de las API de LLM
Los LLM cobran por million tokens, por separado por input (tu prompt + contexto) y output (lo que el modelo devuelve). La salida suele ser entre 3 y 5 veces más cara que la entrada. Un token equivale aproximadamente a 4 caracteres en inglés o tres cuartas partes de una palabra.
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
El panorama de precios en 2026
Han surgido tres niveles:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7, GPT-5, Gemini 3.1 Pro — mejor razonamiento, visión y contexto largo
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6, GPT-5 mini, Gemini 2.5 Flash — 90 % de la calidad frontera por el 10–20 % del precio
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5, GPT-5 nano, DeepSeek V3, Llama 3.3 70B (vía Groq/Together) — perfectos para etiquetado, clasificación y chat sencillo
Dónde está realmente el ahorro
El precio es la palanca fácil; architectural levers move 2–10× more cost:
- Prompt caching — los prompts de sistema y el contexto RAG repetidos se almacenan en caché a aproximadamente el 10 % del precio normal. Una tasa de acierto de caché del 70 %+ es realista en apps de chat y agentes. Reduce la factura de entrada entre un 75 % y un 90 %.
- Batch API — 50 % de descuento para trabajos que pueden esperar hasta 24 horas. Perfecta para backfills, evaluaciones y pipelines de procesado de documentos.
- Tiered routing — envía turnos sencillos a un modelo barato y escala a uno frontera solo cuando hace falta. Reduce a la mitad el coste mezclado de los asistentes típicos.
- Reasoning budgets — en la serie o y en Claude con pensamiento extendido, limita los tokens de razonamiento. El razonamiento por defecto puede multiplicar el coste de salida entre 5 y 10 veces.
- Self-hosted open weights — Llama 3.3 70B en un único H100 cuesta ~0,20 $/M de tokens con utilización del 80 %+; solo merece la pena por encima de ~50M tokens/día.
Cómo leer la tabla comparativa
La tabla se ordena por gasto mensual con tus parámetros. La mayoría de apps son input-heavy (RAG, documentos largos, prompts de sistema), donde el precio de entrada domina el coste total. Las apps tipo chat con prompts cortos y respuestas largas son output-heavy — donde domina el precio de salida.
Otras consideraciones de coste
- Context window: contexto más largo = mejor recuperación pero más tokens de entrada = mayor coste
- Vision / image input: las imágenes se convierten en tokens (normalmente entre 200 y 1200 por imagen)
- Tool use / function calls: las definiciones de tools cuentan como entrada en cada turno salvo que estén en caché
- Fine-tuning: cuota de entrenamiento + inferencia a normalmente entre 2 y 4 veces el precio del modelo base
Combínalo con nuestra Prompt Cost Calculator para estimar un prompt concreto, la AI Model Cost Calculator para escenarios a nivel de proyecto y la AI ROI Calculator para comparar el coste del LLM con el coste de la mano de obra humana que sustituye.
Calculadoras relacionadas
- AI Model Cost Calculator — Compara precios de API de más de 100 LLMs, incluidos GPT-4o, Claude, Gemini y Llama. Calcula costes exactos por tokens.
- AI vs Human ROI Calculator — Compara el coste de herramientas de IA frente a la mano de obra humana. Ahorro mensual, ROI anual y punto de equilibrio con precios de modelos en directo.
- Prompt Cost Calculator — Pega tu prompt, elige un modelo y consulta al instante cuántos tokens utiliza y cuánto cuesta enviarlo.