Contenido

  1. El Desafío de Evaluar Agentes
  2. SWE-bench — El Benchmark Estándar
  3. OpenCode — Evaluación
  4. Codex CLI — Evaluación
  5. Claude Code — Evaluación
  6. Tabla Comparativa General
  7. Métricas Clave
  8. Frameworks de Evaluación
  9. Agent-as-a-Judge
  10. El Harness Effect
  11. Cost-Aware Evaluation
  12. Tendencias 2026
  13. Conclusión de la Serie
  14. Fuentes Verificadas

1.El Desafío de Evaluar Agentes

Evaluar agentes es más complejo que evaluar modelos. Un agente no es solo un LLM — es un sistema compuesto por modelo + harness + tools + prompts. El harness (o scaffold) importa tanto como el modelo subyacente, y cambiarlo puede producir diferencias de hasta 16 puntos porcentuales en rendimiento.

La Ecuación de Evaluación

Agent Performance = f(Model, Harness, Tools, Prompt, Context)

Mismo modelo, distinto harness: Claude Opus obtiene 77% en Claude Code pero 93% en Cursor — 16pp de diferencia atribuibles únicamente al scaffolding.

CORE-Bench: Claude Opus 42% con scaffold mínimo → 78% con harness completo. El harness duplica el rendimiento.

🔥 Implicación: Los benchmarks que solo reportan el nombre del modelo (sin versión del agente/harness) son engañosos. Un mismo modelo puede tener resultados radicalmente diferentes según el agente que lo envuelva. Evaluar el agente completo, no solo el modelo.

2.SWE-bench — El Benchmark Estándar

¿Qué es? Benchmark que evalúa LLMs resolviendo issues reales de GitHub. Dado un codebase + issue, el agente debe generar un patch que pase los tests. Publicado en NeurIPS 2024 por Princeton.

Variantes de SWE-bench

VarianteTamañoDescripción
Verified500Human-filtered, solo Python
Lite300Subset barato para iteración rápida
Pro1,865Multi-file, larga duración, multi-language
Multilingual3009 lenguajes de programación
Multimodal517Incluye imágenes/screenshots
Liverenovación mensualIssues frescos — mantenido por Microsoft

Últimos Resultados (Junio 2026)

Modelo (Agent)SWE-bench VerifiedSWE-bench Pro
Claude Mythos Preview93.9%77.8%
Claude Opus 4.888.6%69.2%
GPT-5.5 (Codex CLI)88.7%58.6%
Claude Opus 4.787.6%64.3%
GPT-5.479.2%57.7%
Gemini 3.1 Pro80.6%54.2%
DeepSeek-V476.2%
⚠️ Contaminación: SWE-bench Verified está saturado y sospechoso de contaminación. Frontier models pueden reproducir verbatim gold patches con prompts mínimos. 59.4% de hard tasks tenían flawed test cases. SWE-bench Pro es ahora el benchmark recomendado por la comunidad académica.

Progresión Histórica de SWE-bench Verified

ModeloFechaScore
GPT-4 (SWE-agent)Abr 202412.5%
Claude 3 OpusMar 202433.4%
Claude 3.5 SonnetJun 202449.0%
Claude 3.7 SonnetFeb 202562.3%
Claude Sonnet 4.5Oct 202577.2%
Claude Opus 4.5Oct 202580.9%
Claude Opus 4.8May 202688.6%
Claude Mythos PreviewJun 202693.9%
Fuente: https://www.swebench.com/ — Datos verificados a Junio 2026.
📈 Trayectoria: De 12.5% (Abr 2024) a 93.9% (Jun 2026) en ~26 meses. El crecimiento es consistente pero se acerca al techo del benchmark. Los próximos avances requerirán benchmarks más difíciles.

3.OpenCode — Evaluación

OpenCode no tiene un evaluation framework built-in. Sin embargo, ofrece múltiples herramientas para monitoreo, cost tracking, y benchmarking externo que permiten evaluar el rendimiento del agente.

CLI Built-in: opencode stats

Comando que agrega estadísticas de sesión:

MétricaDescripción
totalSessionsSesiones totales realizadas
totalMessagesMensajes intercambiados
totalCostCosto agregado en USD
totalTokensDesglose: input, output, reasoning, cache
toolUsageUso por tipo de herramienta
modelUsageDistribución por modelo
cost/dayCosto promedio diario
tokens/sessionTokens promedio y mediana por sesión

Cost Tracking Built-in

OpenCode mantiene un registro de costos en SQLite (cost REAL DEFAULT 0 por sesión). La función getUsage() en session.ts calcula costo basado en modelo + tokens (input, output, cache) con manejo específico de cache Anthropic/Bedrock/Vertex.

SWE-bench Evaluation Tool — PR #10699

MERGED Herramienta de evaluación SWE-bench añadida al core de OpenCode. Carga datasets de HuggingFace, clona repos, genera patches, y produce output en formato predictions.jsonl.

Frameworks Externos

OpenTelemetry

Flag experimental experimental.openTelemetry. 7+ plugins OTEL disponibles. Guía oficial de integración con SigNoz.

Plugins de Monitoreo

PluginFunción
opencode-usageCLI + TUI live, budgets, alerts de uso
opencode-token-monitorTrend charts de consumo de tokens
opencode-costsSidebar con desglose de costos
opencode-quota8 comandos para gestión de cuotas
opencode-analyticsDashboard HTML interactivo
ℹ️ Nota: OpenCode no aparece en el SWE-bench leaderboard como agente individual. Su rendimiento en benchmarks es el rendimiento del modelo que uses como backend. Esto es consistente con su arquitectura como plataforma agnóstica de modelos.

4.Codex CLI — Evaluación

SWE-bench Results

ConfiguraciónVerifiedPro
GPT-5.5 (Codex CLI)88.7%58.6%
GPT-5.3-Codex (custom scaffolding)~57% Pro77.3% (self-reported)
GPT-5.4 (SEAL standardized)79.2%57.7%

Expert-SWE (Benchmark Interno)

Pruebas en tareas humanas de 20h de duración. GPT-5.5 alcanza 73.1% de éxito.

Terminal-Bench 2.0

Benchmark para tareas CLI/DevOps. GPT-5.5 obtiene 82.7% — primer lugar.

Eval Methodology

  1. Deterministic checks — Scripts que computan constraint violations automáticamente
  2. LLM-as-a-judge — Scoring basado en rúbrica
  3. codex exec --json — Produce JSONL trace para scoring automático
  4. --output-schema — Structured output con JSON Schema
  5. HALO — Feedback loop que ranks cambios de harness desde traces + evals

Built-in Eval Skill

$promptfoo-evals — Skill integrado para structured evaluations.

OpenTelemetry

Opt-in via [otel] en config.toml:

NivelMétricas
Turn-levele2e_duration_ms, ttft, tool.call count, token_usage
Tool-leveltool.call counter, duration_ms, approval outcomes
APIapi_request duration_ms, status, success
Session logs~/.codex/sessions/rollout-*.jsonl

Cost Tracking

ModeloInput / 1MOutput / 1M
GPT-5.5$10$40
GPT-5.4$5$30
GPT-5.4-mini$1.50$9
💡 Cost driver: Input tokens dominan. read_file es el top cost driver. En sesión típica de 5h: 1.1M input tokens vs 188K output tokens.

5.Claude Code — Evaluación

SWE-bench Results

ConfiguraciónVerifiedPro
Claude Opus 4.8 (May 2026)88.6%69.2%
Claude Opus 4.787.6%64.3%
Claude Code + Opus 4.555.4%57.5%
Claude Sonnet 4.679.6%

Anthropic Eval Engineering

Fuente: anthropic.com/engineering/demystifying-evals-for-ai-agents

Principio fundamental — Harness + Model Distinction: "Claude Code is a flexible agent harness... When we evaluate 'an agent,' we're evaluating the harness and the model working together."

Tres tipos de grader:

TipoDescripciónUso
Code-basedDeterministico — scripts que verifican resultadosCorrectitud objetiva
Model-basedLLM-as-a-judge con rúbrica
HumanRevisores humanos expertosValidación final

Métricas pass@k y pass^k: pass@k = al menos 1 éxito en k intentos. pass^k (pass wedge) = éxito en TODOS los k intentos. A k=10: pass@k → 100%, pass^k → 0%. La consistencia (pass^k) es más relevante para producción.

⚠️ Eval saturation: SWE-bench Verified empezó en 30% (2024), ahora está en >80-94%. Anthropic advierte que el benchmark se está saturando y los scores dejan de ser diferenciadores.

OpenTelemetry / Monitoring

Fuente: code.claude.com/docs/en/monitoring-usage

MétricaDescripción
session.countSesiones iniciadas
lines_of_codeLíneas añadidas/removidas
pull_request.countPRs creados
commit.countGit commits
cost.usage$ por sesión (model, speed, effort, agent/skill/plugin/MCP)
token.usageTokens por tipo
code_edit_tool.decisionAccept/reject en edits
active_time.totalTiempo activo

Traces (beta): interaction → llm_request → hook → tool (blocked_on_user | execution)

Enterprise Benchmarks

Claude Code Review (lanzado Mar 2026)

Sistema multi-agent de PR review:

Measuring Agent Autonomy

Fuente: anthropic.com/news/measuring-agent-autonomy

6.Tabla Comparativa de Evaluación

DimensiónOpenCodeCodex CLIClaude Code
Eval framework built-inNo$promptfoo-evals skill3 grader types
SWE-bench toolPR #10699 (merged)No (externo)No (externo)
SWE-bench score (agent)N/A (depende del modelo)88.7% (GPT-5.5)55.4% (Code+Opus 4.5)
Cost trackingSQLite + getUsage()JSONL + OTel metrics/usage + OTel metrics
Session statsopencode statsJSONL traces/usage command
OpenTelemetryexperimental + 7 plugins[otel] config sectionFull metrics/events/traces
Benchmarking oficialopencode-benchExpert-SWE, Terminal-BenchCode Review + Agent Autonomy
LLM-as-judgeEn opencode-benchRubric-based3 grader types
Cost per task (Pro)N/A~$0.68 (GPT-5.4)~$4.10 (Opus 4.7)
Monitoreo third-party8+ pluginsGrafana, OpikOTLP → Grafana, Datadog
💡 Lectura: No hay un ganador absoluto. OpenCode gana en extensibilidad (plugins), Codex CLI en costo por tarea, Claude Code en madurez de monitoreo enterprise. La mejor plataforma depende de tus prioridades de evaluación.

7.Métricas Clave

MétricaDescripciónUso Principal
pass@1Resuelve en el primer intentoBenchmark estándar de capacidad
pass@kResuelve en al menos 1 de k intentosCapacidad máxima del sistema
pass^k (pass wedge)Resuelve en TODOS los k intentosConfiabilidad — crítico para producción
Success RateTareas completadas exitosamenteMétrica general de rendimiento
Cost per task$ promedio por tarea completadaViabilidad económica
Tool use accuracyPrecisión en invocación de herramientasDebug y optimización de agentes
Token efficiencyTokens consumidos por tareaEficiencia del agente

Hallazgo Clave: pass^k (Consistencia) > pass@k (Capacidad)

Para producción enterprise, la consistencia importa más que la capacidad máxima. Modelos top bajan de 85% pass@1 a ~60% pass@4. Un agente que resuelve 85% de las tareas al primer intento pero falla el 15% restante de forma impredecible es menos confiable que uno con 70% pass@1 pero 68% pass@4.

Implicación: Al evaluar agentes para producción, priorizar métricas de consistencia (pass^k, variance) sobre métricas de capacidad (pass@1, pass@k).

8.Frameworks de Evaluación

LangSmith (LangChain)

Weights & Biases (Weave)

Arize Phoenix

OpenTelemetry + OpenInference

Span KindDescripción
LLMLlamadas a modelos de lenguaje
AGENTDecisiones y acciones del agente
TOOLInvocaciones de herramientas
CHAINSecuencias de operaciones
RETRIEVERBúsquedas en bases de conocimiento

Atributos estándar: gen_ai.operation.name, gen_ai.request.model, gen_ai.input.messages. Cobertura: Anthropic, OpenAI, AWS Bedrock, Azure AI Inference, MCP.

9.Research: Agent-as-a-Judge

Agent-as-a-Judge (ICML 2025)

Framework que usa agentic systems para evaluar agentes step-by-step. Aplicado a code generation con DevAI (55 tasks). Resultados contundentes:

AJ-Bench (2026)

Primer benchmark para evaluar Agent-as-a-Judge. 155 tasks, 516 trajectories.

Multi-Agent-as-Judge (MAJ-Eval)

Auto-construcción de personas evaluadoras desde documentos. Debate multi-agente in-group para converger en una evaluación. Reduce bias individual y mejora la robustez del scoring.

🔬 Dirección futura: La evaluación de agentes probablemente evolucionará hacia sistemas multi-agente donde múltiples especialistas evaluadores debaten y convergen en un score, similar a un peer review académico pero automatizado.

10.El Harness Effect — Modelo vs Scaffold

🔥 CRÍTICO: La calidad del system prompt, tool descriptions, y context management importa tanto como el modelo subyacente. Evaluar el agente completo, no solo el modelo.

Mismo Modelo, Distinto Harness

BenchmarkModeloScaffold mínimoHarness completoDiferencia
SWE-benchClaude Opus77% (Claude Code)93% (Cursor)+16pp
CORE-BenchClaude Opus42%78%+36pp
SWE-bench MobileOpus 4.52% (OpenCode)12% (Cursor)6× gap

¿Qué hace un buen harness?

  1. System prompt optimizado — Instrucciones claras, ejemplos, formato de output
  2. Tool descriptions precisas — Descripciones que guían al modelo a usar la herramienta correcta
  3. Context management inteligente — Qué incluir en el contexto, qué comprimir, qué omitir
  4. Feedback loop — Capacidad de autocorrección basada en errores
  5. Planning — Descomposición de tareas complejas en pasos manejables

Lección Fundamental

No asumas que un modelo X rinde igual en todos los agentes. El harness puede duplicar o triplicar el rendimiento efectivo. Al evaluar, especifica siempre la versión del agente/harness, no solo el modelo.

Recomendación: Si estás construyendo un agente, invierte tanto en el harness como en la selección del modelo. Un harness mediocre arruina un modelo excelente.

11.Cost-Aware Evaluation — Success per Dollar

El score absoluto en benchmarks no cuenta toda la historia. La métrica relevante para producción es success per dollar — cuánto cuesta completar una tarea con éxito.

Coding Agent Index (Artificial Analysis)

ConfiguraciónCosto por tareaIndexNotas
Claude Opus 4.7 (max) en Claude Code$4.10/task66Más caro
GPT-5.5 (xhigh) en Codex CLI$4.82/task65Más caro
Cursor Composer 2.5 standard$0.07/task62~60× más barato
Cursor Composer 2.5 Fast$0.44/task62~10× más barato
💡 Interpretación: Cursor es ~60× más barato por tarea que Claude Code con Opus 4.7, con un Index solo 4 puntos menor (62 vs 66). Para tareas donde Cursor es suficiente, la eficiencia económica es abrumadora. El "mejor" agente depende de tu presupuesto y tolerancia a fallos.

12.Tendencias 2026 en Evaluación de Agentes

🔄

Benchmarks Dinámicos

SWE-rebench V2 (32K+ tasks post-cutoff), SWE-bench Live con renovación mensual. Contra la contaminación.

🆕

FeatureBench

Evaluación feature-oriented, no bugfix. Top agentes logran solo 11-12.5%. El nuevo frontier.

📊

Evaluación Continua

LangSmith Engine, Arize AX + Airflow. Online evals en producción, no solo offline.

💰

Cost-Aware Indexing

Evaluar success per dollar, no solo score absoluto. El ROI como métrica principal.

👥

Multi-Agent Eval

Evaluar orquestación entre agentes, no solo tareas individuales. Sistemas de sistemas.

🎯

pass^k (Consistencia)

Más relevante que pass@k para producción enterprise. La confiabilidad es el nuevo accuracy.

🔮 Predicción: Para 2027, los benchmarks estáticos como SWE-bench serán reemplazados por sistemas de evaluación continua y dinámica. La contaminación de datasets es un problema creciente que requiere soluciones arquitectónicas, no solo estadísticas.

13.Conclusión de la Serie — 9 Clases de Plataformas Agenticas

🎓

Serie Completa: Síntesis de Plataformas Agenticas (Junio 2026)

A lo largo de 9 clases magistrales, hemos explorado el ecosistema completo de plataformas para agentes de IA aplicados al desarrollo de software. Desde los fundamentos de MCP y la arquitectura de plugins, hasta la seguridad, el routing, la memoria a largo plazo, la interacción desktop, los modelos de pricing y —finalmente— la evaluación de agentes.

El panorama que emerge es claro: no hay una plataforma dominante. OpenCode, Codex CLI y Claude Code compiten en un mercado tri-polar donde cada una optimiza para prioridades distintas —extensibilidad, velocidad de iteración, y madurez enterprise, respectivamente. La decisión no es cuál es "mejor", sino cuál se alinea mejor con tu stack, tu equipo y tus restricciones.

Las lecciones transversales de la serie:

🔹 Los protocolos abiertos (MCP, OpenTelemetry) reducen lock-in y multiplican opciones
🔹 La seguridad y el control de costos no son opcionales — diseñarlos desde el día 1
🔹 La memoria y el contexto son el cuello de botella fundamental de los agentes actuales
🔹 El harness importa tanto como el modelo — evaluar el sistema completo, no el LLM aislado
🔹 2026 es el año en que los agentes pasan de "impresionantes" a "productivos"

— Serie Completa de 9 Clases • Síntesis de Plataformas Agenticas • Junio 2026

Índice de la Serie

#ClaseTema
1MCPModel Context Protocol — El Lenguaje Común de los Agentes
2PluginsArquitectura de Plugins — Extensibilidad en Plataformas Agenticas
3SeguridadSeguridad en Agentes de Código — Permisos, Sandbox, Control
4RoutingRouting Multi-Modelo — Cómo los Agentes Deciden qué Modelo Usar
5MemoriaMemoria Agentica — Contexto, Persistencia yEstado a Largo Plazo
6SubagentesSubagentes y Orquestación — Delegación Inteligente en Sistemas Multi-Agente
7Desktop InteractionInteracción Desktop — Computer Use, Automatización Visual y Agentes GUI
8Pricing WarsModelos de Cobro, Costos Reales y Estrategias Multi-Provider
9EvaluaciónEvaluación de Agentes — Cómo Medir lo que Hace el Código
Serie completa. 9 clases, 0 dependencias externas, datos verificados a Junio 2026. Diseñada como recurso de referencia para arquitectos, desarrolladores y decision-makers que navegan el ecosistema de plataformas agenticas.

📚 Fuentes Verificadas

Todos los datos, scores y afirmaciones en esta clase están respaldados por documentación oficial, papers académicos y benchmarks públicos verificados a Junio 2026.

SWE-bench

OpenCode

Codex CLI

Claude Code

Frameworks de Evaluación

Research

Cost-Aware Evaluation

Tendencias y Análisis

Última verificación: Junio 2026. Los scores y precios pueden cambiar; consulte las fuentes oficiales para información actualizada.