Pricing Wars — Modelos de Cobro, Costos Reales y Estrategias Multi-Provider

Contenido

First-Party Pricing
The Tokenizer Trap
Cost per Task Real
Resellers / Aggregators
Suscripción y Créditos — OpenAI ChatGPT, Anthropic Claude, OpenCode Go, GitHub Copilot, Zencoder
Hidden Costs
Batch + Caching Economics
TCO by Scale
Comparativa de Modelos de Pago
Decision Guide
Fuentes Verificadas

1.First-Party Pricing — Precios Oficiales por Proveedor

Todos los precios en USD por millón de tokens. Input / Output. Datos verificados a Junio 2026 de las páginas oficiales de pricing de cada proveedor.

OpenAI API

Modelo	Input / 1M	Output / 1M	Batch 50%	Cache Read	Notas
GPT-5.5	$5.00	$30.00	$2.50/$15	$0.50	Flagship
GPT-5.4	$2.50	$15.00	$1.25/$7.50	$0.25	Mejor calidad-precio
GPT-5.4 mini	$0.75	$4.50	$0.38/$2.25	$0.08	Rápido, económico
GPT-5.4 nano	$0.20	$1.25	$0.10/$0.63	$0.02	Máxima eficiencia
o3-deep-research	$5.00	$20.00	N/A	N/A	Investigación profunda

ℹ️ Long Context Premium: Contextos >270K tokens tienen un recargo de 1.5x–2x sobre el precio base. Cache Read = 10% del precio input.

Anthropic API

Modelo	Input / 1M	Output / 1M	Batch 50%	Cache Read	Fast Mode
Opus 4.8	$5.00	$25.00	$2.50/$12.50	$0.50	2x ($10/$50)
Opus 4.7	$5.00	$25.00	$2.50/$12.50	$0.50	6x ($30/$150)
Opus 4.6	$5.00	$25.00	$2.50/$12.50	$0.50	6x ($30/$150)
Sonnet 4.6	$3.00	$15.00	$1.50/$7.50	$0.30	—
Haiku 4.5	$1.00	$5.00	$0.50/$2.50	$0.10	—

⚠️ Cache Write pricing: 5 min retention = 1.25x input price ($6.25); 1h retention = 2x ($10). Cache Read = 10% del input. Stackeable con Batch.

Google Gemini API

Modelo	Input / 1M (≤200K)	Output / 1M (≤200K)	>200K input	>200K output	Batch 50%
Gemini 3.1 Pro	$2.00	$12.00	$4.00	$18.00	$1/$6
Gemini 2.5 Pro	$1.25	$10.00	$2.50	$15.00	$0.63/$5
Gemini 3.5 Flash	$1.50	$9.00	—	—	$0.75/$4.50
Gemini 2.5 Flash	$0.30	$2.50	—	—	$0.15/$1.25

✅ Caching: Google ofrece ~90% de descuento en contexto cacheados, el mejor ratio del mercado. Batch 50% off en todos los modelos.

DeepSeek API

Modelo	Input / 1M	Output / 1M	Cache Hit	Batch
V4 Flash	$0.14	$0.28	$0.0028 / $0.28	N/A
V4 Pro	$0.435	$0.87	$0.0036 / $0.87	N/A

⚠️ Nota: DeepSeek no tiene batch API ni hard cutoff — el contexto se procesa completo siempre. Cache hit en input es ~2% del precio normal (promo V4 Pro 75% descuento vigente hasta mayo 2026).

Mistral API

Modelo	Input / 1M	Output / 1M
Large 3	$2.00	$6.00
Medium 3	$0.40	$2.00
Codestral	$0.30	$0.90
Small 3.2	$0.06	$0.18

💡 Nota: Mistral destaca por su eficiencia en multilingual (especialmente lenguas europeas) y su modelo Small 3.2 compite directamente con GPT-5.4 nano a la mitad del precio.

2.The Tokenizer Trap — Cuando el Precio Nominal No es el Real

🔥 CRÍTICO: El precio nominal por token NO es el precio real. La tokenización varía entre proveedores y puede encarecer el costo real hasta 1.47x. Comparar precios sin ajustar por tokenizer es engañoso.

Cada proveedor usa un tokenizer distinto. Un mismo texto en inglés genera diferente cantidad de tokens en cada plataforma. Esto significa que el costo real de una tarea puede diferir significativamente del cálculo ingenuo.

Tokenizer por Proveedor

Proveedor	Tokenizer	Base	Notas
OpenAI	o200k_base	BPE ~200K vocab	GPT-5, GPT-4o, o-series
Anthropic (≤4.6)	Propietario legacy	~100K	Compatible ±2% con cl100k
Anthropic (Opus 4.7+)	Nuevo tokenizer	?	1.0–1.47x más tokens
Google	SentencePiece Unigram	~256K	Mejor en CJK
DeepSeek	Propietario BPE	~128K	1 char EN ≈ 0.3 tok

Benchmarks Opus 4.7+ vs 4.6 (Token Ratio)

Fuentes verificadas: Simon Willison, cometkim. El nuevo tokenizer de Anthropic (Opus 4.7+) produce significativamente más tokens para el mismo texto.

Contenido	Ratio 4.7 / 4.6	Impacto en costo
Prosa inglés	1.30–1.35x	+30–35%
Código fuente	1.29x	+29%
System prompts	1.67x	+67%
Tool definitions	1.36x	+36%
Documentación técnica	1.47x	+47%
CJK (Chino/Japonés/Coreano)	1.07x	+7%
Imágenes	1.0–3.0x	+0–200%

Impacto Real en Precio

Opus 4.8 precio nominal: $5 / $25 por millón de tokens.

Para código en inglés (factor 1.29x de diferencia en tokenización entre Opus 4.7+ y GPT-5.4):

Opus 4.8 real: $6.75 / $33.75 por millón de tokens equivalentes.

vs GPT-5.4: $2.50 / $15 — nominales y reales (no hay cambio de tokenizer).

La brecha real es 2.7x más grande de lo que parece en los precios nominales.

💡 Lección: Siempre calcular el effective token rate (ETR) cuando compares proveedores: costo_real = precio_nominal × ratio_tokenización. Un modelo que parece 2x más caro puede ser 3x más caro en la práctica para tu carga de trabajo específica.

3.Cost per Task — 5 Tareas Reales Comparadas

Costos calculados con tokens reales (ajustados por tokenizer donde aplica). Sin batch ni caching.

Tarea 1: Code Review (2K input nominal, 1K output nominal)

Proveedor	Modelo	Tokens reales	Costo total	Tag
OpenAI	GPT-5.4	2K / 1K	$0.020	REF
Anthropic	Opus 4.8	2.7K / 1K	$0.039	1.95x
Google	Gemini 2.5 Pro	2K / 1K	$0.013	1.5x más barato
DeepSeek	V4 Flash	2K / 1K	$0.0006	33x más barato
DeepSeek	V4 Pro	2K / 1K	$0.0017	12x más barato

Tarea 2: Refactor (50K input, 10K output)

Proveedor	Modelo	Costo total	Tag
OpenAI	GPT-5.4	$0.275	REF
Anthropic	Opus 4.8	$0.588	2.1x
Google	Gemini 2.5 Pro	$0.163	1.7x más barato
DeepSeek	V4 Flash	$0.010	27.5x más barato

Tarea 3: Codebase Analysis (200K input, 2K output)

Proveedor	Modelo	Costo total	Tag
OpenAI	GPT-5.4	$0.530	REF
Anthropic	Opus 4.8	$1.400	2.6x
Google	Gemini 2.5 Pro	$0.333	1.6x más barato
DeepSeek	V4 Flash	$0.029	18.3x más barato

✅ Gana Google: Gemini 2.5 Pro con 2M de contexto nativo a $1.25/$10 (≤200K) es imbatible para análisis de codebase grandes. DeepSeek V4 Flash es 18x más barato pero sin ventana de contexto comparable.

Tarea 4: Multi-turn Conversation (10 rounds, ~15K input total + 10K output total)

Proveedor	Modelo	Costo total	Tag
OpenAI	GPT-5.4	$0.425	REF
Anthropic	Opus 4.8	$0.993	2.3x
Google	Gemini 2.5 Pro	$0.238	1.8x más barato
DeepSeek	V4 Flash	$0.018	23.6x más barato

Tarea 5: Computer Use (20 steps con screenshots)

Proveedor	Modelo	Costo total	Tag
OpenAI	GPT-5.4	Consultar	N/D
Anthropic	Opus 4.8	$3.985	REF
Google	Gemini 2.5 Pro	$1.550	2.6x más barato
DeepSeek	V4 Flash	$0.059	67x más barato

⚠️ Computer Use es caro: 20 pasos con screenshots en Opus 4.8 cuestan ~$4. Una sesión de 100 pasos = ~$20. Para uso intensivo de Computer Use, Codex Desktop App (OpenAI) puede ser más económico al no tener markup por token individual.

4.Resellers / Aggregators — OpenRouter, AWS Bedrock, Azure OpenAI

OpenRouter

Concepto	Detalle
Modelo de cobro	Passthrough sin markup sobre precio del provider
Fee por créditos	5.5% (tarjeta) / 5% (crypto)
Rate limits	Sin límites con saldo ≥$10. Por modelo por defecto
BYOK	1M reqs/mes gratis, luego 5% fee
Modelos	400+ modelos de todos los providers
API única	Un solo endpoint, un solo API key

✅ Recomendado para: Testing multi-provider, prototipado rápido, desarrolladores indie que quieren probar todos los modelos sin múltiples cuentas. Para producción con >$2K/mes conviene ir directo al provider.

AWS Bedrock

Concepto	Detalle
Pricing Anthropic	Mismo precio que Anthropic directo (sin markup)
Pricing open-source	Markup 10–70% sobre costo del provider
Región EU	+10–20% sobre precio base US
Provisioned Throughput	$40–200/hr reservado
Data transfer	Costos adicionales de salida de red (AWS egress)
Compliance	SOC2, HIPAA, VPC, PrivateLink

Azure OpenAI

Concepto	Detalle
Pricing GPT	Mismo precio que OpenAI directo
Global Standard	21+ regiones, precio base
Data Zone	+10% sobre precio base
Regional Standard	2–10x más caro que Global
PTU (Provisioned Throughput Units)	~$1/hr, mínimo 15 unidades
Support plans	$100–$1,000+/mes adicionales
Compliance	Microsoft Enterprise Agreement, Azure AD, HIPAA

💡 Azure PTU Warning: Las PTU se pagan aunque no se usen. Una reserva de 15 PTU a $1/hr cada una = $360/día = ~$10,800/mes mínimo. Solo para cargas predecibles y sostenidas. Para bursting, usar Global Standard.

5.Suscripciones y Modelos de Créditos

5.1 OpenAI — ChatGPT & Codex Plans

OpenAI ofrece planes de suscripción para ChatGPT/Codex que incluyen acceso a modelos, herramientas y límites de uso superiores al tier gratuito. A diferencia del pago por token de la API, estos planes ofrecen un coste fijo mensual con uso incluido dentro de límites de uso justo (fair use). El modelo Codex (agente de código) está incluido en Plus y superiores.

Plan	Precio	Modelos disponibles	Codex	Contexto razonamiento
Free	$0	GPT-5.5 Instant (limitado)	Limitado	27K
Go	~$?/mes	GPT-5.5 Instant (más acceso)	Limitado	54K
Plus	~$20/mes	GPT-5.5 Instant + Thinking	✅ Incluido	256K
Pro	~$200/mes	GPT-5.5 Instant + Thinking + Pro	✅ Expandido	400K
Business	~$25-30/usuario/mes	Todos + legacy	✅ Incluido	256K
Enterprise	Personalizado	Todos	✅ Incluido	400K

ℹ️ Nota: Codex (agente de código de escritorio) está disponible desde el plan Plus en adelante. Computer Use y deep research también están incluidos en Plus+. Los precios de ChatGPT Plus/Pro son orientativos — OpenAI no publica precios exactos en HTML estático (usa JavaScript); verificar en openai.com/chatgpt/pricing/.

5.2 Anthropic — Claude Plans

Anthropic ofrece suscripciones a Claude con acceso progresivo a modelos y Claude Code incluido desde el plan Pro. Los planes Max multiplican la capacidad de uso respecto a Pro. A diferencia de OpenAI, Anthropic sí publica precios exactos para todos sus planes.

Plan	Precio	Modelos	Claude Code	Features clave
Free	$0	Sonnet, Haiku	❌ No	Chat web/iOS, MCP, extended thinking
Pro	$20/mes ($17 anual)	Opus, Sonnet, Haiku	✅ Incluido	Proyectos ilimitados, Research, Cowork
Max 5×	$100/mes	Todos	✅ Incluido	5× más uso que Pro, early access
Max 20×	~$200-400/mes	Todos	✅ Incluido	20× más uso, máximo nivel
Team Standard	$25/seat/mes ($20 anual)	Todos	✅ Incluido	SSO, admin, no training on data
Team Premium	$125/seat/mes ($100 anual)	Todos	✅ Incluido	5× más que Standard, mix & match
Enterprise	$20/seat + API	Todos	✅ Incluido	SCIM, HIPAA, RBAC, audit logs

🔑 Clave: Claude Code está incluido en Pro ($20/mes). Para un desarrollador individual, esto puede ser más rentable que pagar API directa si se usan menos de ~400K tokens de Opus al mes o ~1M tokens de Sonnet al mes.

5.3 Suscripción vs API Pay-per-Use

La decisión entre suscripción y API depende del volumen y tipo de uso:

Factor	Suscripción (ChatGPT Plus / Claude Pro)	API Pay-per-Use
Costo fijo	$20-200/mes	$0 (solo lo que usas)
Costo marginal	$0 (dentro de fair use)	$0.02-3.99 por tarea
Modelo tope	Incluido (GPT-5.5 Thinking / Opus)	Pagas por token (más caro)
Agente código	Codex en Plus+ / Claude Code en Pro+	Pagas tokens del agente
Uso programático	❌ No (solo chat web/app)	✅ API, automatización, integraciones
Rate limits	Fair use (no especificado)	Explícitos (RPM, TPM, TPD)
Mejor para	Uso interactivo diario, desarrollo ligero	Producción, automatización, alto volumen

Ejemplo real: Un desarrollador que usa Claude Code 20 días al mes, 5 sesiones/día, 4K+0.8K tokens por sesión con Sonnet 4.6 = $8.40/mes en API + overhead. Con Claude Pro ($20/mes) tiene Claude Code incluido + acceso a Opus + Cowork. La suscripción compensa si el uso es interactivo y frecuente. Para batch y automatización, la API es la única opción.

OpenCode Go

Plan	Precio	Incluye	Detalle
Intro	$5 (primer mes)	14 modelos open-source	Cuota promocional única
Mensual	$10/mes	14 modelos open-source	Cuota base
Diario	$12 / 5 horas	Modelos open-source	Para uso esporádico
Semanal	$30 / semana	Modelos open-source	Uso intensivo corto
Mensual ilimitado	$60 / mes	Modelos open-source	Uso intensivo
Overage	Balance Zen	Pago por uso extra	Cargos adicionales

⚠️ Controversia: El price cut de DeepSeek V4 Pro no se ha reflejado en las cuotas de OpenCode Go. Ver issue #29008. Los suscriptores pagan tarifa plana aunque los costos del provider hayan bajado significativamente.

GitHub Copilot (AI Credits)

Plan	Precio	Créditos incluidos	Valor nominal	Max top-up
Pro	$10/mes	1,500 credits	$15 valor	$100/mes → 20K credits ($200 val)
Business	$19/usuario/mes	Pooled	—	Pool de créditos compartido
Enterprise	$39/usuario/mes	Pooled	—	Pool de créditos compartido

💡 1 credit = $0.01. Sin markup en modelos (mismos precios API directa). Overage configurable. Los créditos no usados expiran mensualmente.

Zencoder

Plan	Precio	Créditos	Multiplicadores	BYOK
Pro	$45/mes	30,000 créditos	Opus 4.6 = 5x, Sonnet 4.6 = 3x, Haiku = 1x	❌
Pro Max	$195/mes	180,000 créditos	Opus 4.6 = 5x, Sonnet 4.6 = 3x, Haiku = 1x	✅ (solo seat fee + API directa)

💡 BYOK en Zencoder: El plan Pro Max permite traer tu propia API key. Pagas solo el seat fee de $195/mes + el costo directo de API al provider. Ideal si ya tienes contratos enterprise con descuentos por volumen.

6.Hidden Costs — Lo Que No Está en la Tabla de Precios

🔥 Advertencia: El precio por token es solo la punta del iceberg. Los costos ocultos pueden duplicar o triplicar tu factura mensual.

Costo oculto	Proveedor	Precio	Notas
Web Search	OpenAI, Anthropic	$10 / 1K calls	Cada búsqueda web que el modelo hace
Managed Agents	Anthropic	$0.08 / session-hour	Agentes gestionados por hora
Code Execution	OpenAI	$0.03–$1.92 / 20min	Por bloque de ejecución de código
Code Execution	Anthropic	$0.05 / hr	1,550 horas gratis incluidas
File Search	OpenAI	$2.50 / 1K calls + $0.10/GB/día	Búsqueda + storage de vectores
Support plans	Azure	$100–$1,000+/mes	Planes de soporte obligatorios para PTU
Data residency EU/UK	AWS, Azure, GCP	+10–20%	Cargo adicional por región
PTU underutilization	Azure	Variable	Pagas igual aunque no uses la capacidad reservada
Data transfer costs	AWS	$0.09–$0.20/GB	Egress de red entre servicios y hacia internet
Long context premium	OpenAI	1.5–2x (>270K)	Recargo por contexto largo

💡 Ejemplo real: Un agente que hace web search + code execution + file search puede tener una factura 3x mayor que el costo de tokens solo. En Azure, el support plan + PTU underutilization puede añadir $15K+/mes que no aparecen en la tabla de precios por token.

7.Batch + Caching Economics

Proveedor	Batch descuento	Cache input	Cache write	Stackeable	Ahorro máximo
OpenAI	50% off	10% del input	—	Sí (Batch + Cache)	~75%
Anthropic	50% off	10% del input	1.25x (5m) / 2x (1h)	Sí	~75%
Google	50% off	~90% descuento	—	Sí	~95%
DeepSeek	N/A	~98% (cache hit)	—	N/A	~98% (cache hit rate)

✅ Gana Google: Con 50% batch + ~90% caching, el costo efectivo de Gemini 2.5 Pro puede ser tan bajo como $0.06/$0.50 por millón de tokens. DeepSeek gana en cache hit rate (98%) pero solo aplica a input y no tiene batch.

Ejemplo: Stackeable Batch + Caching

Para una tarea de code review con 50K input (80% cacheados) en lote:

Proveedor	Precio normal	Batch (50%)	+ Cache	Costo final	Ahorro
OpenAI GPT-5.4	$0.275	$0.138	$0.075	~$0.075	73%
Anthropic Opus 4.8	$0.588	$0.294	$0.164	~$0.164	72%
Google Gemini 2.5 Pro	$0.163	$0.082	$0.018	~$0.018	89%

8.TCO by Scale — Costo Real por Escala

Estimaciones mensuales para uso continuo (30 días) sin batch ni caching. Los costos reales serán menores con optimizaciones.

Startup: 1M tokens/día

Proveedor	Modelo	Costo/mes	Tag
Google	Gemini 2.5 Pro	~$510/mes	Mejor TCO
OpenAI	GPT-5.4	~$530/mes	Referencia
Anthropic	Opus 4.8	~$1,400/mes	2.6x
DeepSeek	V4 Flash	~$29/mes	18x más barato

Scale-up: 10M tokens/día

Proveedor	Modelo	Costo/mes	Tag
Google	Gemini 2.5 Pro	~$5,100/mes	Mejor TCO
Azure	GPT-5.4	~$7,400/mes	+10% data zone
OpenAI direct	GPT-5.4	~$7,900/mes	Incluye GPT-5.5 ocasional
AWS Bedrock	Claude Opus 4.8	~$11,800/mes	2.3x vs Google

Enterprise: 100M tokens/día

Proveedor	Plataforma	Costo/mes	Tag
Google	Vertex AI	~$51K/mes	Mejor TCO
Microsoft	Azure OpenAI	~$74K/mes	+PTU
OpenAI	Direct	~$79K/mes	+enterprise discount
AWS	Bedrock	~$118K/mes	2.3x vs Vertex

Análisis

DeepSeek V4 Flash es 18x más barato que GPT-5.4 y no escala en precio — el costo marginal por token adicional es casi nulo. Ideal para startups que priorizan budget sobre calidad.

Google Vertex AI gana en enterprise scale gracias a su caching agresivo (~90%) y batch pricing. A 100M tok/día, Vertex cuesta ~35% menos que Azure y ~55% menos que Bedrock.

Azure OpenAI es competitivo solo si ya estás en el ecosistema Microsoft (Enterprise Agreement descuenta el markup de Data Zone). Para greenfield, Vertex o directo son mejores.

9.Comparativa de Modelos de Pago

Proveedor	Modelo	Pay-per-token	Créditos	Suscripción plana	BYOK	Flagship / Plan	Límite / Fair use
ChatGPT Plus	Suscripción plana	❌	❌	✅ ~$20/mes	❌	GPT-5.5 Thinking incluido	Fair use (no especificado)
ChatGPT Pro	Suscripción plana	❌	❌	✅ ~$200/mes	❌	GPT-5.5 Pro incluido	Fair use (5-20× Plus)
Claude Pro	Suscripción plana	❌	❌	✅ $20/mes	❌	Opus 4.8, Sonnet, Haiku	Fair use (más que Free)
Claude Max	Suscripción plana	❌	❌	✅ $100/mes	❌	Opus 4.8, Sonnet, Haiku	5× más que Pro
OpenAI API	Pay-per-token	✅	❌	❌	N/A	$2.50 / $15	—
Anthropic API	Pay-per-token	✅	❌	❌	N/A	$5 / $25	—
OpenCode Go	Suscripción plana	❌	❌	✅ $10/mes	❌	~$1.40 / $4.40	—
GitHub Copilot Pro	Créditos prepagos	❌	✅ $15	✅ $10/mes	❌	$5 / $30	—
Zencoder Pro	Créditos + BYOK	❌	✅ 30K	✅ $45/mes	✅ Pro Max	~$1,800/req (Opus)	—
OpenRouter	Pay-per-token + fee	✅	✅	❌	✅	$5 / $25 + 5.5%	—

💡 BYOK es el modelo más flexible: Pagas al proveedor directamente (con posibles descuentos enterprise) más un fee fijo a la plataforma. Zencoder Pro Max ($195/mes seat fee + API directa) es ideal para equipos que ya tienen contratos con descuento por volumen.

10.Decision Guide — Qué Usar Según tu Perfil

💰

Budget máximo

DeepSeek V4 Flash
20x más barato que GPT-5.4

⚖️

Mejor calidad-precio

Gemini 2.5 Pro
$1.25/$10 con 2M contexto

🏭

Producción API

OpenAI GPT-5.4
Ecosistema más robusto

🔬

Multi-provider testing

OpenRouter
Una API key, 400+ modelos

👨‍💻

Developer indie

OpenCode Go
$10/mes, 14 modelos

🏛️

Enterprise compliance

AWS Bedrock o Azure
SOC2, HIPAA, VPC

📈

Heavy API (>$2K/mes)

Directo al provider
Evitar resellers y su fee

🖥️

Computer Use

Codex Desktop App
GA, sin markup por token

🔄

Fallback automático

opencode-model-fallback
Plugin de failover multi-modelo

💻

Uso interactivo diario

Suscripción (Plus/Pro) — Para uso diario como desarrollador, la suscripción a ChatGPT Plus ($20/mes) o Claude Pro ($20/mes) incluye el agente de código (Codex/Claude Code).

Compensa frente a API si haces >5 sesiones/día con modelos premium.

Estrategia Recomendada: Multi-Provider Routing

No elijas un solo proveedor. Implementa routing inteligente:

🔹 Tareas simples (chat, code review): DeepSeek V4 Flash o Gemini 2.5 Flash

🔹 Tareas complejas (refactor, análisis): Gemini 2.5 Pro o GPT-5.4

🔹 Tareas críticas (seguridad, compliance): OpenAI GPT-5.5 o Anthropic Opus 4.8 vía AWS/Azure

🔹 Computer Use: Codex Desktop App

Ahorro estimado: 40–60% vs usar un solo modelo flagship para todo.

⚠️ Cuidado con lock-in: Si usas características propietarias (Azure PTU, Bedrock Provisioned Throughput, Vertex caching), migrar de proveedor puede ser costoso y lento. Diseña tu abstracción de modelo desde el día 1 para poder cambiar de provider sin reescribir tu aplicación.

11.Conclusión — Lecciones para Navegar la Pricing War

El mercado de APIs de IA está en una guerra de precios sin precedentes. DeepSeek ha forzado a todos los proveedores a reducir precios, y la tendencia continuará. Pero el precio nominal es solo una pieza del rompecabezas.

Las tres reglas de oro del pricing de IA:

Nunca compares precios nominales por token. Ajusta por tokenizer, por tarea, y por costo total (incluyendo hidden costs).
Batch + caching son tus mejores amigos. Pueden reducir tu factura 75–95%. Diseña tu arquitectura para maximizar cache hits.
Multi-provider routing no es opcional. Usar un solo modelo para todo es 2x–5x más caro que routing inteligente por tarea.

La plataforma que gana la guerra de precios no es la más barata por token, sino la que ofrece el mejor costo por tarea completada para tu uso específico. Para un startup, DeepSeek V4 Flash es imbatible. Para una enterprise que necesita garantías de throughput y compliance, Azure o AWS justifican su markup. Para el developer indie, OpenCode Go a $10/mes es el mejor deal del mercado.

📚 Fuentes Verificadas

Todos los precios y afirmaciones en esta clase están respaldados por documentación oficial de pricing verificada a Junio 2026.

OpenAI

Pricing oficial OpenAI — GPT-5.5, GPT-5.4, GPT-5.4 mini, GPT-5.4 nano, o3-deep-research
Rate limits y Batch API — Documentación de límites y descuento batch 50%
Prompt Caching — Cache Read 10% del input price
Context Optimization — Long context premium >270K
Tokenizers — o200k_base BPE ~200K vocab
Function Calling — Tool definitions y su impacto en tokens
Codex CLI — Computer Use Desktop App pricing

Anthropic

Pricing oficial Anthropic — Opus 4.8/4.7/4.6, Sonnet 4.6, Haiku 4.5
API Pricing docs — Batch 50% off, cache pricing, Fast Mode
Prompt Caching — Cache Read 10%, Cache Write tiers
Computer Use — Pricing por paso con screenshots
Tool Use — Impacto de tool definitions en token count
Simon Willison's Blog — Tokenizer benchmarks Opus 4.7 vs 4.6
cometkim.dev — Análisis independiente de ratios de tokenización

Google

Pricing oficial Google AI — Gemini 3.1 Pro, 2.5 Pro, 3.5 Flash, 2.5 Flash
Vertex AI pricing — Enterprise pricing con descuentos por volumen
Context Caching — ~90% descuento en contexto cacheados
Batch API — 50% off en procesamiento por lotes
SentencePiece — Tokenizer Unigram ~256K vocab

DeepSeek

Pricing oficial DeepSeek — V4 Flash, V4 Pro, cache hit pricing
API Documentation — Sin batch API, sin hard cutoff
Token Usage — Tokenizer BPE ~128K, 1 char EN ≈ 0.3 tok

Mistral

Pricing oficial Mistral — Large 3, Medium 3, Codestral, Small 3.2
API Documentation — Modelos, capacidades y regionalidad

Resellers / Aggregators

OpenRouter Pricing — Passthrough, 5.5% fee, BYOK, 400+ modelos
AWS Bedrock Pricing — Claude sin markup, open-source +10-70%, EU +10-20%
Azure OpenAI Pricing — Global/Data Zone/Regional, PTU, support plans

Suscripciones / Créditos

OpenCode Go Pricing — $5 primer mes, $10/mes, cuotas diarias/semanales/mensuales
Issue #29008 — DeepSeek V4 Pro price cut no reflejado en cuotas OpenCode Go
GitHub Copilot Plans — AI Credits, Pro/Business/Enterprise, 1 credit = $0.01
Zencoder Pricing — Pro $45/mes (30K credits), Pro Max $195/mes (180K), BYOK

Análisis y Referencias Técnicas

OpenCode GitHub — Código fuente, plugin model-fallback, issues de pricing
opencode-model-fallback — Plugin de failover multi-modelo
Simon Willison: Anthropic tokenizer change analysis — Benchmark detallado de ratios 4.7/4.6
Artificial Analysis — Benchmarks independientes de precio/calidad por modelo

Última verificación: Junio 2026. Los precios y políticas pueden cambiar; consulte las fuentes oficiales para información actualizada.

Contenido

1.First-Party Pricing — Precios Oficiales por Proveedor

OpenAI API

Anthropic API

Google Gemini API

DeepSeek API

Mistral API

2.The Tokenizer Trap — Cuando el Precio Nominal No es el Real

Tokenizer por Proveedor

Benchmarks Opus 4.7+ vs 4.6 (Token Ratio)

Impacto Real en Precio

3.Cost per Task — 5 Tareas Reales Comparadas

Tarea 1: Code Review (2K input nominal, 1K output nominal)

Tarea 2: Refactor (50K input, 10K output)

Tarea 3: Codebase Analysis (200K input, 2K output)

Tarea 4: Multi-turn Conversation (10 rounds, ~15K input total + 10K output total)

Tarea 5: Computer Use (20 steps con screenshots)

4.Resellers / Aggregators — OpenRouter, AWS Bedrock, Azure OpenAI

OpenRouter

AWS Bedrock

Azure OpenAI

5.Suscripciones y Modelos de Créditos

5.1 OpenAI — ChatGPT & Codex Plans

5.2 Anthropic — Claude Plans

5.3 Suscripción vs API Pay-per-Use

OpenCode Go

GitHub Copilot (AI Credits)

Zencoder

6.Hidden Costs — Lo Que No Está en la Tabla de Precios

7.Batch + Caching Economics

Ejemplo: Stackeable Batch + Caching

8.TCO by Scale — Costo Real por Escala

Startup: 1M tokens/día

Scale-up: 10M tokens/día

Enterprise: 100M tokens/día

Análisis

9.Comparativa de Modelos de Pago

10.Decision Guide — Qué Usar Según tu Perfil

Budget máximo

Mejor calidad-precio

Producción API

Multi-provider testing

Developer indie

Enterprise compliance

Heavy API (>$2K/mes)

Computer Use

Fallback automático

Uso interactivo diario

Estrategia Recomendada: Multi-Provider Routing

11.Conclusión — Lecciones para Navegar la Pricing War

Lección Aprendida

📚 Fuentes Verificadas

OpenAI

Anthropic

Google

DeepSeek

Mistral

Resellers / Aggregators

Suscripciones / Créditos

Análisis y Referencias Técnicas