Evaluación de Agentes — Cómo Medir lo que Hace el Código

Contenido

El Desafío de Evaluar Agentes
SWE-bench — El Benchmark Estándar
OpenCode — Evaluación
Codex CLI — Evaluación
Claude Code — Evaluación
Tabla Comparativa General
Métricas Clave
Frameworks de Evaluación
Agent-as-a-Judge
El Harness Effect
Cost-Aware Evaluation
Tendencias 2026
Conclusión de la Serie
Fuentes Verificadas

1.El Desafío de Evaluar Agentes

Evaluar agentes es más complejo que evaluar modelos. Un agente no es solo un LLM — es un sistema compuesto por modelo + harness + tools + prompts. El harness (o scaffold) importa tanto como el modelo subyacente, y cambiarlo puede producir diferencias de hasta 16 puntos porcentuales en rendimiento.

La Ecuación de Evaluación

Agent Performance = f(Model, Harness, Tools, Prompt, Context)

Mismo modelo, distinto harness: Claude Opus obtiene 77% en Claude Code pero 93% en Cursor — 16pp de diferencia atribuibles únicamente al scaffolding.

CORE-Bench: Claude Opus 42% con scaffold mínimo → 78% con harness completo. El harness duplica el rendimiento.

🔥 Implicación: Los benchmarks que solo reportan el nombre del modelo (sin versión del agente/harness) son engañosos. Un mismo modelo puede tener resultados radicalmente diferentes según el agente que lo envuelva. Evaluar el agente completo, no solo el modelo.

2.SWE-bench — El Benchmark Estándar

¿Qué es? Benchmark que evalúa LLMs resolviendo issues reales de GitHub. Dado un codebase + issue, el agente debe generar un patch que pase los tests. Publicado en NeurIPS 2024 por Princeton.

Variantes de SWE-bench

Variante	Tamaño	Descripción
Verified	500	Human-filtered, solo Python
Lite	300	Subset barato para iteración rápida
Pro	1,865	Multi-file, larga duración, multi-language
Multilingual	300	9 lenguajes de programación
Multimodal	517	Incluye imágenes/screenshots
Live	renovación mensual	Issues frescos — mantenido por Microsoft

Últimos Resultados (Junio 2026)

Modelo (Agent)	SWE-bench Verified	SWE-bench Pro
Claude Mythos Preview	93.9%	77.8%
Claude Opus 4.8	88.6%	69.2%
GPT-5.5 (Codex CLI)	88.7%	58.6%
Claude Opus 4.7	87.6%	64.3%
GPT-5.4	79.2%	57.7%
Gemini 3.1 Pro	80.6%	54.2%
DeepSeek-V4	76.2%	—

⚠️ Contaminación: SWE-bench Verified está saturado y sospechoso de contaminación. Frontier models pueden reproducir verbatim gold patches con prompts mínimos. 59.4% de hard tasks tenían flawed test cases. SWE-bench Pro es ahora el benchmark recomendado por la comunidad académica.

Progresión Histórica de SWE-bench Verified

Modelo	Fecha	Score
GPT-4 (SWE-agent)	Abr 2024	12.5%
Claude 3 Opus	Mar 2024	33.4%
Claude 3.5 Sonnet	Jun 2024	49.0%
Claude 3.7 Sonnet	Feb 2025	62.3%
Claude Sonnet 4.5	Oct 2025	77.2%
Claude Opus 4.5	Oct 2025	80.9%
Claude Opus 4.8	May 2026	88.6%
Claude Mythos Preview	Jun 2026	93.9%

Fuente: https://www.swebench.com/ — Datos verificados a Junio 2026.

📈 Trayectoria: De 12.5% (Abr 2024) a 93.9% (Jun 2026) en ~26 meses. El crecimiento es consistente pero se acerca al techo del benchmark. Los próximos avances requerirán benchmarks más difíciles.

3.OpenCode — Evaluación

OpenCode no tiene un evaluation framework built-in. Sin embargo, ofrece múltiples herramientas para monitoreo, cost tracking, y benchmarking externo que permiten evaluar el rendimiento del agente.

CLI Built-in: `opencode stats`

Comando que agrega estadísticas de sesión:

Métrica	Descripción
totalSessions	Sesiones totales realizadas
totalMessages	Mensajes intercambiados
totalCost	Costo agregado en USD
totalTokens	Desglose: input, output, reasoning, cache
toolUsage	Uso por tipo de herramienta
modelUsage	Distribución por modelo
cost/day	Costo promedio diario
tokens/session	Tokens promedio y mediana por sesión

Cost Tracking Built-in

OpenCode mantiene un registro de costos en SQLite (cost REAL DEFAULT 0 por sesión). La función getUsage() en session.ts calcula costo basado en modelo + tokens (input, output, cache) con manejo específico de cache Anthropic/Bedrock/Vertex.

SWE-bench Evaluation Tool — PR #10699

MERGED Herramienta de evaluación SWE-bench añadida al core de OpenCode. Carga datasets de HuggingFace, clona repos, genera patches, y produce output en formato predictions.jsonl.

Frameworks Externos

agent-eval-opencode: Framework de testing de terceros. Ejecuta EVAL.ts contra repos clones, mide tool calls, files modificados, errores. Soporta A/B testing entre configuraciones.
opencode-bench (repo oficial separado, github.com/anomalyco/opencode-bench): Framework de benchmarking oficial. Usa 3 LLM judges independientes, 5 dimensiones de scoring — API Signature (20%), Logic Equivalence (30%), Integration (20%), Test Coverage (20%), Checks (10%). Variance-penalized aggregation.

OpenTelemetry

Flag experimental experimental.openTelemetry. 7+ plugins OTEL disponibles. Guía oficial de integración con SigNoz.

Plugins de Monitoreo

Plugin	Función
opencode-usage	CLI + TUI live, budgets, alerts de uso
opencode-token-monitor	Trend charts de consumo de tokens
opencode-costs	Sidebar con desglose de costos
opencode-quota	8 comandos para gestión de cuotas
opencode-analytics	Dashboard HTML interactivo

ℹ️ Nota: OpenCode no aparece en el SWE-bench leaderboard como agente individual. Su rendimiento en benchmarks es el rendimiento del modelo que uses como backend. Esto es consistente con su arquitectura como plataforma agnóstica de modelos.

4.Codex CLI — Evaluación

SWE-bench Results

Configuración	Verified	Pro
GPT-5.5 (Codex CLI)	88.7%	58.6%
GPT-5.3-Codex (custom scaffolding)	~57% Pro	77.3% (self-reported)
GPT-5.4 (SEAL standardized)	79.2%	57.7%

Expert-SWE (Benchmark Interno)

Pruebas en tareas humanas de 20h de duración. GPT-5.5 alcanza 73.1% de éxito.

Terminal-Bench 2.0

Benchmark para tareas CLI/DevOps. GPT-5.5 obtiene 82.7% — primer lugar.

Eval Methodology

Deterministic checks — Scripts que computan constraint violations automáticamente
LLM-as-a-judge — Scoring basado en rúbrica
codex exec --json — Produce JSONL trace para scoring automático
--output-schema — Structured output con JSON Schema
HALO — Feedback loop que ranks cambios de harness desde traces + evals

Built-in Eval Skill

$promptfoo-evals — Skill integrado para structured evaluations.

OpenTelemetry

Opt-in via [otel] en config.toml:

Nivel	Métricas
Turn-level	e2e_duration_ms, ttft, tool.call count, token_usage
Tool-level	tool.call counter, duration_ms, approval outcomes
API	api_request duration_ms, status, success
Session logs	`~/.codex/sessions/rollout-*.jsonl`

Cost Tracking

Modelo	Input / 1M	Output / 1M
GPT-5.5	$10	$40
GPT-5.4	$5	$30
GPT-5.4-mini	$1.50	$9

💡 Cost driver: Input tokens dominan. read_file es el top cost driver. En sesión típica de 5h: 1.1M input tokens vs 188K output tokens.

5.Claude Code — Evaluación

SWE-bench Results

Configuración	Verified	Pro
Claude Opus 4.8 (May 2026)	88.6%	69.2%
Claude Opus 4.7	87.6%	64.3%
Claude Code + Opus 4.5	55.4%	57.5%
Claude Sonnet 4.6	79.6%	—

Anthropic Eval Engineering

Fuente: anthropic.com/engineering/demystifying-evals-for-ai-agents

Principio fundamental — Harness + Model Distinction: "Claude Code is a flexible agent harness... When we evaluate 'an agent,' we're evaluating the harness and the model working together."

Tres tipos de grader:

Tipo	Descripción	Uso
Code-based	Deterministico — scripts que verifican resultados	Correctitud objetiva
Model-based	LLM-as-a-judge con rúbrica
Human	Revisores humanos expertos	Validación final

Métricas pass@k y pass^k: pass@k = al menos 1 éxito en k intentos. pass^k (pass wedge) = éxito en TODOS los k intentos. A k=10: pass@k → 100%, pass^k → 0%. La consistencia (pass^k) es más relevante para producción.

⚠️ Eval saturation: SWE-bench Verified empezó en 30% (2024), ahora está en >80-94%. Anthropic advierte que el benchmark se está saturando y los scores dejan de ser diferenciadores.

OpenTelemetry / Monitoring

Fuente: code.claude.com/docs/en/monitoring-usage

Métrica	Descripción
session.count	Sesiones iniciadas
lines_of_code	Líneas añadidas/removidas
pull_request.count	PRs creados
commit.count	Git commits
cost.usage	$ por sesión (model, speed, effort, agent/skill/plugin/MCP)
token.usage	Tokens por tipo
code_edit_tool.decision	Accept/reject en edits
active_time.total	Tiempo activo

Traces (beta): interaction → llm_request → hook → tool (blocked_on_user | execution)

Enterprise Benchmarks

Costo promedio: ~$13/dev/día activo, $150-250/dev/mes
<$30/día para 90% de usuarios
Agent teams: ~7x más tokens que sesiones estándar

Claude Code Review (lanzado Mar 2026)

Sistema multi-agent de PR review:

84% de PRs grandes con hallazgos
7.5 issues promedio por review
<1% false positive rate
~20 min por review
$15-25/PR

Measuring Agent Autonomy

Fuente: anthropic.com/news/measuring-agent-autonomy

99.9th percentile turn duration casi se duplicó (Oct 2025–Jan 2026)
Internal success rate en tareas desafiantes se duplicó
Intervenciones humanas promedio: de 5.4 a 3.3 por sesión
Usuarios experimentados (>750 sesiones) auto-aprueban >40%
Mediana turn duration: ~45s (estable)

6.Tabla Comparativa de Evaluación

Dimensión	OpenCode	Codex CLI	Claude Code
Eval framework built-in	No	$promptfoo-evals skill	3 grader types
SWE-bench tool	PR #10699 (merged)	No (externo)	No (externo)
SWE-bench score (agent)	N/A (depende del modelo)	88.7% (GPT-5.5)	55.4% (Code+Opus 4.5)
Cost tracking	SQLite + getUsage()	JSONL + OTel metrics	/usage + OTel metrics
Session stats	opencode stats	JSONL traces	/usage command
OpenTelemetry	experimental + 7 plugins	[otel] config section	Full metrics/events/traces
Benchmarking oficial	opencode-bench	Expert-SWE, Terminal-Bench	Code Review + Agent Autonomy
LLM-as-judge	En opencode-bench	Rubric-based	3 grader types
Cost per task (Pro)	N/A	~$0.68 (GPT-5.4)	~$4.10 (Opus 4.7)
Monitoreo third-party	8+ plugins	Grafana, Opik	OTLP → Grafana, Datadog

💡 Lectura: No hay un ganador absoluto. OpenCode gana en extensibilidad (plugins), Codex CLI en costo por tarea, Claude Code en madurez de monitoreo enterprise. La mejor plataforma depende de tus prioridades de evaluación.

7.Métricas Clave

Métrica	Descripción	Uso Principal
pass@1	Resuelve en el primer intento	Benchmark estándar de capacidad
pass@k	Resuelve en al menos 1 de k intentos	Capacidad máxima del sistema
pass^k (pass wedge)	Resuelve en TODOS los k intentos	Confiabilidad — crítico para producción
Success Rate	Tareas completadas exitosamente	Métrica general de rendimiento
Cost per task	$ promedio por tarea completada	Viabilidad económica
Tool use accuracy	Precisión en invocación de herramientas	Debug y optimización de agentes
Token efficiency	Tokens consumidos por tarea	Eficiencia del agente

Hallazgo Clave: pass^k (Consistencia) > pass@k (Capacidad)

Para producción enterprise, la consistencia importa más que la capacidad máxima. Modelos top bajan de 85% pass@1 a ~60% pass@4. Un agente que resuelve 85% de las tareas al primer intento pero falla el 15% restante de forma impredecible es menos confiable que uno con 70% pass@1 pero 68% pass@4.

Implicación: Al evaluar agentes para producción, priorizar métricas de consistencia (pass^k, variance) sobre métricas de capacidad (pass@1, pass@k).

8.Frameworks de Evaluación

LangSmith (LangChain)

Framework-agnostic. 3 tipos de evaluación: Final response, Trajectory, Single step
LLM-as-judge, heurísticos, humanos (annotation queues)
LangSmith Engine: Detecta issues recurrentes, diagnostica causa raíz, propone fix, despliega evaluador automáticamente
LangSmith CLI + Skills: Claude Code pasó de 17% → 92% en tareas LangSmith

Weights & Biases (Weave)

Decorador @weave.op(). Evaluaciones offline + online
EvaluationLogger: scorers custom, LLM-as-judge, comparación entre experimentos
Trace tree con flame graph, costo por op, latencia

Arize Phoenix

Open-source, construido sobre OpenTelemetry + OpenInference
Tracing de spans: AGENT, LLM, TOOL, RETRIEVER, GUARDRAIL, EVALUATOR
Experimentos con datasets desde traces. Arize AX: Airflow Provider (95+ operators)

OpenTelemetry + OpenInference

Span Kind	Descripción
LLM	Llamadas a modelos de lenguaje
AGENT	Decisiones y acciones del agente
TOOL	Invocaciones de herramientas
CHAIN	Secuencias de operaciones
RETRIEVER	Búsquedas en bases de conocimiento

Atributos estándar: gen_ai.operation.name, gen_ai.request.model, gen_ai.input.messages. Cobertura: Anthropic, OpenAI, AWS Bedrock, Azure AI Inference, MCP.

9.Research: Agent-as-a-Judge

Agent-as-a-Judge (ICML 2025)

Framework que usa agentic systems para evaluar agentes step-by-step. Aplicado a code generation con DevAI (55 tasks). Resultados contundentes:

Supera dramáticamente a LLM-as-a-Judge tradicional
Consistency con humanos: 0.3% discrepancia (vs 31% con single LLM judge)
El agente evaluador puede seguir el razonamiento del agente evaluado, detectar errores sutiles, y proporcionar feedback detallado

AJ-Bench (2026)

Primer benchmark para evaluar Agent-as-a-Judge. 155 tasks, 516 trajectories.

Agent-as-a-Judge: +0.13 F1 sobre LLM-as-a-Judge
Pero solo 0.72 F1 promedio — mucho margen de mejora
La evaluación de agentes por agentes es prometedora pero no madura

Multi-Agent-as-Judge (MAJ-Eval)

Auto-construcción de personas evaluadoras desde documentos. Debate multi-agente in-group para converger en una evaluación. Reduce bias individual y mejora la robustez del scoring.

🔬 Dirección futura: La evaluación de agentes probablemente evolucionará hacia sistemas multi-agente donde múltiples especialistas evaluadores debaten y convergen en un score, similar a un peer review académico pero automatizado.

10.El Harness Effect — Modelo vs Scaffold

🔥 CRÍTICO: La calidad del system prompt, tool descriptions, y context management importa tanto como el modelo subyacente. Evaluar el agente completo, no solo el modelo.

Mismo Modelo, Distinto Harness

Benchmark	Modelo	Scaffold mínimo	Harness completo	Diferencia
SWE-bench	Claude Opus	77% (Claude Code)	93% (Cursor)	+16pp
CORE-Bench	Claude Opus	42%	78%	+36pp
SWE-bench Mobile	Opus 4.5	2% (OpenCode)	12% (Cursor)	6× gap

¿Qué hace un buen harness?

System prompt optimizado — Instrucciones claras, ejemplos, formato de output
Tool descriptions precisas — Descripciones que guían al modelo a usar la herramienta correcta
Context management inteligente — Qué incluir en el contexto, qué comprimir, qué omitir
Feedback loop — Capacidad de autocorrección basada en errores
Planning — Descomposición de tareas complejas en pasos manejables

Lección Fundamental

No asumas que un modelo X rinde igual en todos los agentes. El harness puede duplicar o triplicar el rendimiento efectivo. Al evaluar, especifica siempre la versión del agente/harness, no solo el modelo.

Recomendación: Si estás construyendo un agente, invierte tanto en el harness como en la selección del modelo. Un harness mediocre arruina un modelo excelente.

11.Cost-Aware Evaluation — Success per Dollar

El score absoluto en benchmarks no cuenta toda la historia. La métrica relevante para producción es success per dollar — cuánto cuesta completar una tarea con éxito.

Coding Agent Index (Artificial Analysis)

Configuración	Costo por tarea	Index	Notas
Claude Opus 4.7 (max) en Claude Code	$4.10/task	66	Más caro
GPT-5.5 (xhigh) en Codex CLI	$4.82/task	65	Más caro
Cursor Composer 2.5 standard	$0.07/task	62	~60× más barato
Cursor Composer 2.5 Fast	$0.44/task	62	~10× más barato

💡 Interpretación: Cursor es ~60× más barato por tarea que Claude Code con Opus 4.7, con un Index solo 4 puntos menor (62 vs 66). Para tareas donde Cursor es suficiente, la eficiencia económica es abrumadora. El "mejor" agente depende de tu presupuesto y tolerancia a fallos.

12.Tendencias 2026 en Evaluación de Agentes

🔄

Benchmarks Dinámicos

SWE-rebench V2 (32K+ tasks post-cutoff), SWE-bench Live con renovación mensual. Contra la contaminación.

🆕

FeatureBench

Evaluación feature-oriented, no bugfix. Top agentes logran solo 11-12.5%. El nuevo frontier.

📊

Evaluación Continua

LangSmith Engine, Arize AX + Airflow. Online evals en producción, no solo offline.

💰

Cost-Aware Indexing

Evaluar success per dollar, no solo score absoluto. El ROI como métrica principal.

👥

Multi-Agent Eval

Evaluar orquestación entre agentes, no solo tareas individuales. Sistemas de sistemas.

🎯

pass^k (Consistencia)

Más relevante que pass@k para producción enterprise. La confiabilidad es el nuevo accuracy.

🔮 Predicción: Para 2027, los benchmarks estáticos como SWE-bench serán reemplazados por sistemas de evaluación continua y dinámica. La contaminación de datasets es un problema creciente que requiere soluciones arquitectónicas, no solo estadísticas.

13.Conclusión de la Serie — 9 Clases de Plataformas Agenticas

🎓

Serie Completa: Síntesis de Plataformas Agenticas (Junio 2026)

A lo largo de 9 clases magistrales, hemos explorado el ecosistema completo de plataformas para agentes de IA aplicados al desarrollo de software. Desde los fundamentos de MCP y la arquitectura de plugins, hasta la seguridad, el routing, la memoria a largo plazo, la interacción desktop, los modelos de pricing y —finalmente— la evaluación de agentes.

El panorama que emerge es claro: no hay una plataforma dominante. OpenCode, Codex CLI y Claude Code compiten en un mercado tri-polar donde cada una optimiza para prioridades distintas —extensibilidad, velocidad de iteración, y madurez enterprise, respectivamente. La decisión no es cuál es "mejor", sino cuál se alinea mejor con tu stack, tu equipo y tus restricciones.

Las lecciones transversales de la serie:

🔹 Los protocolos abiertos (MCP, OpenTelemetry) reducen lock-in y multiplican opciones
🔹 La seguridad y el control de costos no son opcionales — diseñarlos desde el día 1
🔹 La memoria y el contexto son el cuello de botella fundamental de los agentes actuales
🔹 El harness importa tanto como el modelo — evaluar el sistema completo, no el LLM aislado
🔹 2026 es el año en que los agentes pasan de "impresionantes" a "productivos"

— Serie Completa de 9 Clases • Síntesis de Plataformas Agenticas • Junio 2026

Índice de la Serie

#	Clase	Tema
1	MCP	Model Context Protocol — El Lenguaje Común de los Agentes
2	Plugins	Arquitectura de Plugins — Extensibilidad en Plataformas Agenticas
3	Seguridad	Seguridad en Agentes de Código — Permisos, Sandbox, Control
4	Routing	Routing Multi-Modelo — Cómo los Agentes Deciden qué Modelo Usar
5	Memoria	Memoria Agentica — Contexto, Persistencia yEstado a Largo Plazo
6	Subagentes	Subagentes y Orquestación — Delegación Inteligente en Sistemas Multi-Agente
7	Desktop Interaction	Interacción Desktop — Computer Use, Automatización Visual y Agentes GUI
8	Pricing Wars	Modelos de Cobro, Costos Reales y Estrategias Multi-Provider
9	Evaluación	Evaluación de Agentes — Cómo Medir lo que Hace el Código

✅ Serie completa. 9 clases, 0 dependencias externas, datos verificados a Junio 2026. Diseñada como recurso de referencia para arquitectos, desarrolladores y decision-makers que navegan el ecosistema de plataformas agenticas.

📚 Fuentes Verificadas

Todos los datos, scores y afirmaciones en esta clase están respaldados por documentación oficial, papers académicos y benchmarks públicos verificados a Junio 2026.

SWE-bench

SWE-bench Leaderboard — Scores oficiales de todos los modelos y agentes
Princeton NLP — SWE-bench GitHub — Código fuente, datasets, documentación
SWE-bench Multilingual — Extensión a 9 lenguajes (arXiv 2024)
SWE-bench Pro — Multi-file, long horizon (arXiv 2025)
Revisión de contaminación en SWE-bench — 59.4% de hard tasks con flawed test cases
SWE-bench Live — Benchmarks dinámicos mantenidos por Microsoft

OpenCode

OpenCode Docs — Documentación oficial, stats, cost tracking, OTEL
OpenCode GitHub — Código fuente, PR #10699 (SWE-bench tool)
opencode-bench — Framework de benchmarking oficial
SigNoz + OpenCode — Guía oficial de observabilidad
npm: opencode-* plugins — Plugins de monitoreo (usage, costs, quota, analytics)

Codex CLI

Codex CLI Docs — Documentación oficial, eval methodology, OTEL
Codex CLI Pricing — Cost tracking, modelos, cost per task
Codex Advanced Config — Structured output, JSON Schema, OTEL config
Codex CLI Paper — Expert-SWE, Terminal-Bench 2.0, HALO

Claude Code

Claude Code Docs — Documentación oficial, configuración, monitoreo
Monitoring Usage — Métricas OTEL, traces, dashboards
Costs Guide — Cost tracking enterprise, benchmarks de costo
Demystifying Evals for AI Agents — Eval engineering, pass@k, pass^k, grader types
Measuring Agent Autonomy — Turn duration, success rate, human intervention trends
Claude Code Review — Multi-agent PR review, métricas de rendimiento

Frameworks de Evaluación

LangSmith Docs — Evaluation, annotation queues, LangSmith Engine
Weights & Biases Weave Docs — Trace tree, EvaluationLogger, scoring
Arize Phoenix Docs — OpenTelemetry tracing, experimentos, Airflow
OpenTelemetry Specification — Span kinds, atributos estándar
OpenInference — Extensiones de OpenTelemetry para IA generativa

Research

Agent-as-a-Judge (ICML 2025) — Agentes evaluando agentes, DevAI benchmark
AJ-Bench (2026) — Benchmark para Agent-as-a-Judge, 155 tasks
MAJ-Eval: Multi-Agent-as-Judge — Auto-construcción de personas evaluadoras
CORE-Bench — Scaffolding effects en agentes de código

Cost-Aware Evaluation

Artificial Analysis — Coding Agent Index, success per dollar benchmarks
Coding Agents Leaderboard — Comparativa cost/performance de agentes

Tendencias y Análisis

FeatureBench — Benchmark de desarrollo feature-oriented
SWE-bench Live — Benchmark dinámico de Microsoft
SWE-rebench V2 — 32K+ tasks post-cutoff

Última verificación: Junio 2026. Los scores y precios pueden cambiar; consulte las fuentes oficiales para información actualizada.

📖

Lección Aprendida

"Evaluar un agente no es evaluar un modelo. Es medir un sistema completo — modelo, harness, tools, prompts — en el contexto de tareas reales. El harness puede duplicar el rendimiento, el costo por tarea puede variar 60× entre plataformas, y la consistencia (pass^k) importa más que la capacidad máxima (pass@k). En 2026, el mejor agente no es el que más scores tiene, sino el que resuelve tu problema al mejor costo con la confiabilidad que necesitas."

— Clase 9 de 9 • Evaluación de Agentes • Serie Síntesis de Plataformas Agenticas • Junio 2026

Contenido

1.El Desafío de Evaluar Agentes

La Ecuación de Evaluación

2.SWE-bench — El Benchmark Estándar

Variantes de SWE-bench

Últimos Resultados (Junio 2026)

Progresión Histórica de SWE-bench Verified

3.OpenCode — Evaluación

CLI Built-in: opencode stats

Cost Tracking Built-in

SWE-bench Evaluation Tool — PR #10699

Frameworks Externos

OpenTelemetry

Plugins de Monitoreo

4.Codex CLI — Evaluación

SWE-bench Results

Expert-SWE (Benchmark Interno)

Terminal-Bench 2.0

Eval Methodology

Built-in Eval Skill

OpenTelemetry

Cost Tracking

5.Claude Code — Evaluación

SWE-bench Results

Anthropic Eval Engineering

OpenTelemetry / Monitoring

Enterprise Benchmarks

Claude Code Review (lanzado Mar 2026)

Measuring Agent Autonomy

6.Tabla Comparativa de Evaluación

7.Métricas Clave

Hallazgo Clave: pass^k (Consistencia) > pass@k (Capacidad)

8.Frameworks de Evaluación

LangSmith (LangChain)

Weights & Biases (Weave)

Arize Phoenix

OpenTelemetry + OpenInference

9.Research: Agent-as-a-Judge

Agent-as-a-Judge (ICML 2025)

AJ-Bench (2026)

Multi-Agent-as-Judge (MAJ-Eval)

10.El Harness Effect — Modelo vs Scaffold

Mismo Modelo, Distinto Harness

¿Qué hace un buen harness?

Lección Fundamental

11.Cost-Aware Evaluation — Success per Dollar

Coding Agent Index (Artificial Analysis)

12.Tendencias 2026 en Evaluación de Agentes

Benchmarks Dinámicos

FeatureBench

Evaluación Continua

Cost-Aware Indexing

Multi-Agent Eval

pass^k (Consistencia)

13.Conclusión de la Serie — 9 Clases de Plataformas Agenticas

Serie Completa: Síntesis de Plataformas Agenticas (Junio 2026)

Índice de la Serie

📚 Fuentes Verificadas

SWE-bench

OpenCode

Codex CLI

Claude Code

Frameworks de Evaluación

Research

Cost-Aware Evaluation

Tendencias y Análisis

Lección Aprendida

CLI Built-in: `opencode stats`