Cierre de la Serie • Junio 2026 • SWE-bench, Cost per Task, Harness Effect, Agent-as-a-Judge
Evaluar agentes es más complejo que evaluar modelos. Un agente no es solo un LLM — es un sistema compuesto por modelo + harness + tools + prompts. El harness (o scaffold) importa tanto como el modelo subyacente, y cambiarlo puede producir diferencias de hasta 16 puntos porcentuales en rendimiento.
Agent Performance = f(Model, Harness, Tools, Prompt, Context)
Mismo modelo, distinto harness: Claude Opus obtiene 77% en Claude Code pero 93% en Cursor — 16pp de diferencia atribuibles únicamente al scaffolding.
CORE-Bench: Claude Opus 42% con scaffold mínimo → 78% con harness completo. El harness duplica el rendimiento.
¿Qué es? Benchmark que evalúa LLMs resolviendo issues reales de GitHub. Dado un codebase + issue, el agente debe generar un patch que pase los tests. Publicado en NeurIPS 2024 por Princeton.
| Variante | Tamaño | Descripción |
|---|---|---|
| Verified | 500 | Human-filtered, solo Python |
| Lite | 300 | Subset barato para iteración rápida |
| Pro | 1,865 | Multi-file, larga duración, multi-language |
| Multilingual | 300 | 9 lenguajes de programación |
| Multimodal | 517 | Incluye imágenes/screenshots |
| Live | renovación mensual | Issues frescos — mantenido por Microsoft |
| Modelo (Agent) | SWE-bench Verified | SWE-bench Pro |
|---|---|---|
| Claude Mythos Preview | 93.9% | 77.8% |
| Claude Opus 4.8 | 88.6% | 69.2% |
| GPT-5.5 (Codex CLI) | 88.7% | 58.6% |
| Claude Opus 4.7 | 87.6% | 64.3% |
| GPT-5.4 | 79.2% | 57.7% |
| Gemini 3.1 Pro | 80.6% | 54.2% |
| DeepSeek-V4 | 76.2% | — |
| Modelo | Fecha | Score | |
|---|---|---|---|
| GPT-4 (SWE-agent) | Abr 2024 | 12.5% | |
| Claude 3 Opus | Mar 2024 | 33.4% | |
| Claude 3.5 Sonnet | Jun 2024 | 49.0% | |
| Claude 3.7 Sonnet | Feb 2025 | 62.3% | |
| Claude Sonnet 4.5 | Oct 2025 | 77.2% | |
| Claude Opus 4.5 | Oct 2025 | 80.9% | |
| Claude Opus 4.8 | May 2026 | 88.6% | |
| Claude Mythos Preview | Jun 2026 | 93.9% |
OpenCode no tiene un evaluation framework built-in. Sin embargo, ofrece múltiples herramientas para monitoreo, cost tracking, y benchmarking externo que permiten evaluar el rendimiento del agente.
opencode statsComando que agrega estadísticas de sesión:
| Métrica | Descripción |
|---|---|
| totalSessions | Sesiones totales realizadas |
| totalMessages | Mensajes intercambiados |
| totalCost | Costo agregado en USD |
| totalTokens | Desglose: input, output, reasoning, cache |
| toolUsage | Uso por tipo de herramienta |
| modelUsage | Distribución por modelo |
| cost/day | Costo promedio diario |
| tokens/session | Tokens promedio y mediana por sesión |
OpenCode mantiene un registro de costos en SQLite (cost REAL DEFAULT 0 por sesión). La función getUsage() en session.ts calcula costo basado en modelo + tokens (input, output, cache) con manejo específico de cache Anthropic/Bedrock/Vertex.
MERGED Herramienta de evaluación SWE-bench añadida al core de OpenCode. Carga datasets de HuggingFace, clona repos, genera patches, y produce output en formato predictions.jsonl.
agent-eval-opencode: Framework de testing de terceros. Ejecuta EVAL.ts contra repos clones, mide tool calls, files modificados, errores. Soporta A/B testing entre configuraciones.opencode-bench (repo oficial separado, github.com/anomalyco/opencode-bench): Framework de benchmarking oficial. Usa 3 LLM judges independientes, 5 dimensiones de scoring — API Signature (20%), Logic Equivalence (30%), Integration (20%), Test Coverage (20%), Checks (10%). Variance-penalized aggregation.Flag experimental experimental.openTelemetry. 7+ plugins OTEL disponibles. Guía oficial de integración con SigNoz.
| Plugin | Función |
|---|---|
| opencode-usage | CLI + TUI live, budgets, alerts de uso |
| opencode-token-monitor | Trend charts de consumo de tokens |
| opencode-costs | Sidebar con desglose de costos |
| opencode-quota | 8 comandos para gestión de cuotas |
| opencode-analytics | Dashboard HTML interactivo |
| Configuración | Verified | Pro |
|---|---|---|
| GPT-5.5 (Codex CLI) | 88.7% | 58.6% |
| GPT-5.3-Codex (custom scaffolding) | ~57% Pro | 77.3% (self-reported) |
| GPT-5.4 (SEAL standardized) | 79.2% | 57.7% |
Pruebas en tareas humanas de 20h de duración. GPT-5.5 alcanza 73.1% de éxito.
Benchmark para tareas CLI/DevOps. GPT-5.5 obtiene 82.7% — primer lugar.
codex exec --json — Produce JSONL trace para scoring automático--output-schema — Structured output con JSON Schema$promptfoo-evals — Skill integrado para structured evaluations.
Opt-in via [otel] en config.toml:
| Nivel | Métricas |
|---|---|
| Turn-level | e2e_duration_ms, ttft, tool.call count, token_usage |
| Tool-level | tool.call counter, duration_ms, approval outcomes |
| API | api_request duration_ms, status, success |
| Session logs | ~/.codex/sessions/rollout-*.jsonl |
| Modelo | Input / 1M | Output / 1M |
|---|---|---|
| GPT-5.5 | $10 | $40 |
| GPT-5.4 | $5 | $30 |
| GPT-5.4-mini | $1.50 | $9 |
read_file es el top cost driver. En sesión típica de 5h: 1.1M input tokens vs 188K output tokens.| Configuración | Verified | Pro |
|---|---|---|
| Claude Opus 4.8 (May 2026) | 88.6% | 69.2% |
| Claude Opus 4.7 | 87.6% | 64.3% |
| Claude Code + Opus 4.5 | 55.4% | 57.5% |
| Claude Sonnet 4.6 | 79.6% | — |
Fuente: anthropic.com/engineering/demystifying-evals-for-ai-agents
Principio fundamental — Harness + Model Distinction: "Claude Code is a flexible agent harness... When we evaluate 'an agent,' we're evaluating the harness and the model working together."
Tres tipos de grader:
| Tipo | Descripción | Uso |
|---|---|---|
| Code-based | Deterministico — scripts que verifican resultados | Correctitud objetiva |
| Model-based | LLM-as-a-judge con rúbrica | |
| Human | Revisores humanos expertos | Validación final |
Métricas pass@k y pass^k: pass@k = al menos 1 éxito en k intentos. pass^k (pass wedge) = éxito en TODOS los k intentos. A k=10: pass@k → 100%, pass^k → 0%. La consistencia (pass^k) es más relevante para producción.
Fuente: code.claude.com/docs/en/monitoring-usage
| Métrica | Descripción |
|---|---|
| session.count | Sesiones iniciadas |
| lines_of_code | Líneas añadidas/removidas |
| pull_request.count | PRs creados |
| commit.count | Git commits |
| cost.usage | $ por sesión (model, speed, effort, agent/skill/plugin/MCP) |
| token.usage | Tokens por tipo |
| code_edit_tool.decision | Accept/reject en edits |
| active_time.total | Tiempo activo |
Traces (beta): interaction → llm_request → hook → tool (blocked_on_user | execution)
Sistema multi-agent de PR review:
Fuente: anthropic.com/news/measuring-agent-autonomy
| Dimensión | OpenCode | Codex CLI | Claude Code |
|---|---|---|---|
| Eval framework built-in | No | $promptfoo-evals skill | 3 grader types |
| SWE-bench tool | PR #10699 (merged) | No (externo) | No (externo) |
| SWE-bench score (agent) | N/A (depende del modelo) | 88.7% (GPT-5.5) | 55.4% (Code+Opus 4.5) |
| Cost tracking | SQLite + getUsage() | JSONL + OTel metrics | /usage + OTel metrics |
| Session stats | opencode stats | JSONL traces | /usage command |
| OpenTelemetry | experimental + 7 plugins | [otel] config section | Full metrics/events/traces |
| Benchmarking oficial | opencode-bench | Expert-SWE, Terminal-Bench | Code Review + Agent Autonomy |
| LLM-as-judge | En opencode-bench | Rubric-based | 3 grader types |
| Cost per task (Pro) | N/A | ~$0.68 (GPT-5.4) | ~$4.10 (Opus 4.7) |
| Monitoreo third-party | 8+ plugins | Grafana, Opik | OTLP → Grafana, Datadog |
| Métrica | Descripción | Uso Principal |
|---|---|---|
| pass@1 | Resuelve en el primer intento | Benchmark estándar de capacidad |
| pass@k | Resuelve en al menos 1 de k intentos | Capacidad máxima del sistema |
| pass^k (pass wedge) | Resuelve en TODOS los k intentos | Confiabilidad — crítico para producción |
| Success Rate | Tareas completadas exitosamente | Métrica general de rendimiento |
| Cost per task | $ promedio por tarea completada | Viabilidad económica |
| Tool use accuracy | Precisión en invocación de herramientas | Debug y optimización de agentes |
| Token efficiency | Tokens consumidos por tarea | Eficiencia del agente |
Para producción enterprise, la consistencia importa más que la capacidad máxima. Modelos top bajan de 85% pass@1 a ~60% pass@4. Un agente que resuelve 85% de las tareas al primer intento pero falla el 15% restante de forma impredecible es menos confiable que uno con 70% pass@1 pero 68% pass@4.
Implicación: Al evaluar agentes para producción, priorizar métricas de consistencia (pass^k, variance) sobre métricas de capacidad (pass@1, pass@k).
@weave.op(). Evaluaciones offline + online| Span Kind | Descripción |
|---|---|
| LLM | Llamadas a modelos de lenguaje |
| AGENT | Decisiones y acciones del agente |
| TOOL | Invocaciones de herramientas |
| CHAIN | Secuencias de operaciones |
| RETRIEVER | Búsquedas en bases de conocimiento |
Atributos estándar: gen_ai.operation.name, gen_ai.request.model, gen_ai.input.messages. Cobertura: Anthropic, OpenAI, AWS Bedrock, Azure AI Inference, MCP.
Framework que usa agentic systems para evaluar agentes step-by-step. Aplicado a code generation con DevAI (55 tasks). Resultados contundentes:
Primer benchmark para evaluar Agent-as-a-Judge. 155 tasks, 516 trajectories.
Auto-construcción de personas evaluadoras desde documentos. Debate multi-agente in-group para converger en una evaluación. Reduce bias individual y mejora la robustez del scoring.
| Benchmark | Modelo | Scaffold mínimo | Harness completo | Diferencia |
|---|---|---|---|---|
| SWE-bench | Claude Opus | 77% (Claude Code) | 93% (Cursor) | +16pp |
| CORE-Bench | Claude Opus | 42% | 78% | +36pp |
| SWE-bench Mobile | Opus 4.5 | 2% (OpenCode) | 12% (Cursor) | 6× gap |
No asumas que un modelo X rinde igual en todos los agentes. El harness puede duplicar o triplicar el rendimiento efectivo. Al evaluar, especifica siempre la versión del agente/harness, no solo el modelo.
Recomendación: Si estás construyendo un agente, invierte tanto en el harness como en la selección del modelo. Un harness mediocre arruina un modelo excelente.
El score absoluto en benchmarks no cuenta toda la historia. La métrica relevante para producción es success per dollar — cuánto cuesta completar una tarea con éxito.
| Configuración | Costo por tarea | Index | Notas |
|---|---|---|---|
| Claude Opus 4.7 (max) en Claude Code | $4.10/task | 66 | Más caro |
| GPT-5.5 (xhigh) en Codex CLI | $4.82/task | 65 | Más caro |
| Cursor Composer 2.5 standard | $0.07/task | 62 | ~60× más barato |
| Cursor Composer 2.5 Fast | $0.44/task | 62 | ~10× más barato |
SWE-rebench V2 (32K+ tasks post-cutoff), SWE-bench Live con renovación mensual. Contra la contaminación.
Evaluación feature-oriented, no bugfix. Top agentes logran solo 11-12.5%. El nuevo frontier.
LangSmith Engine, Arize AX + Airflow. Online evals en producción, no solo offline.
Evaluar success per dollar, no solo score absoluto. El ROI como métrica principal.
Evaluar orquestación entre agentes, no solo tareas individuales. Sistemas de sistemas.
Más relevante que pass@k para producción enterprise. La confiabilidad es el nuevo accuracy.
A lo largo de 9 clases magistrales, hemos explorado el ecosistema completo de plataformas para agentes de IA aplicados al desarrollo de software. Desde los fundamentos de MCP y la arquitectura de plugins, hasta la seguridad, el routing, la memoria a largo plazo, la interacción desktop, los modelos de pricing y —finalmente— la evaluación de agentes.
El panorama que emerge es claro: no hay una plataforma dominante. OpenCode, Codex CLI y Claude Code compiten en un mercado tri-polar donde cada una optimiza para prioridades distintas —extensibilidad, velocidad de iteración, y madurez enterprise, respectivamente. La decisión no es cuál es "mejor", sino cuál se alinea mejor con tu stack, tu equipo y tus restricciones.
Las lecciones transversales de la serie:
🔹 Los protocolos abiertos (MCP, OpenTelemetry) reducen lock-in y multiplican opciones
🔹 La seguridad y el control de costos no son opcionales — diseñarlos desde el día 1
🔹 La memoria y el contexto son el cuello de botella fundamental de los agentes actuales
🔹 El harness importa tanto como el modelo — evaluar el sistema completo, no el LLM aislado
🔹 2026 es el año en que los agentes pasan de "impresionantes" a "productivos"
— Serie Completa de 9 Clases • Síntesis de Plataformas Agenticas • Junio 2026
| # | Clase | Tema |
|---|---|---|
| 1 | MCP | Model Context Protocol — El Lenguaje Común de los Agentes |
| 2 | Plugins | Arquitectura de Plugins — Extensibilidad en Plataformas Agenticas |
| 3 | Seguridad | Seguridad en Agentes de Código — Permisos, Sandbox, Control |
| 4 | Routing | Routing Multi-Modelo — Cómo los Agentes Deciden qué Modelo Usar |
| 5 | Memoria | Memoria Agentica — Contexto, Persistencia yEstado a Largo Plazo |
| 6 | Subagentes | Subagentes y Orquestación — Delegación Inteligente en Sistemas Multi-Agente |
| 7 | Desktop Interaction | Interacción Desktop — Computer Use, Automatización Visual y Agentes GUI |
| 8 | Pricing Wars | Modelos de Cobro, Costos Reales y Estrategias Multi-Provider |
| 9 | Evaluación | Evaluación de Agentes — Cómo Medir lo que Hace el Código |
Todos los datos, scores y afirmaciones en esta clase están respaldados por documentación oficial, papers académicos y benchmarks públicos verificados a Junio 2026.
Última verificación: Junio 2026. Los scores y precios pueden cambiar; consulte las fuentes oficiales para información actualizada.