Clase Magistral • Junio 2026 • Comparativa: OpenCode × Codex (OpenAI) × Claude (Anthropic)
Computer Use (también llamado GUI Agent o Desktop Automation Agent) es la capacidad de un modelo de lenguaje de procesar capturas de pantalla, decidir acciones de interfaz (clic, teclear, arrastrar), y ejecutarlas mediante coordinación con mouse y teclado. El ciclo fundamental es:
/* Ciclo básico de Computer Use */
1. Screenshot → modelo analiza píxeles
2. Modelo decide acción (tipo + coordenadas + parámetros)
3. Sistema ejecuta acción sobre la interfaz real
4. Nuevo screenshot → loop
Este paradigma es radicalmente distinto de las APIs tradicionales (REST, SDKs) porque opera sobre la interfaz visual tal como la ve un humano. No requiere integración programática con la aplicación objetivo.
codex en terminal) NO tiene Computer Use. Es la Desktop App (aplicación nativa macOS/Windows) la que integra esta funcionalidad. Son productos distintos aunque compartan el mismo modelo base.
La Desktop App de Codex incluye un Plugin Computer Use que se activa desde la interfaz de la aplicación. El plugin implementa el ciclo screenshot → decisión → acción como un sandboxed executive loop con aprobación por acción.
GA General Availability desde Abril 2026. No es preview ni beta — es la única plataforma con Computer Use en producción.
| Acción | Descripción |
|---|---|
screenshot | Captura la pantalla completa o una ventana específica |
left_click | Clic izquierdo en coordenadas (x, y) |
right_click | Clic derecho en coordenadas |
double_click | Doble clic en coordenadas |
type | Escribe texto en el campo activo |
scroll | Scroll vertical/horizontal |
keypress | Tecla individual o combinación (Ctrl+C, etc.) |
move | Mover cursor a coordenadas |
drag | Arrastrar de (x1,y1) a (x2,y2) |
clipboard | Leer/escribir portapapeles |
La innovación más relevante de Codex Desktop es la sintaxis @AppName que permite dirigir acciones a aplicaciones específicas:
/* Ejemplos de @AppName syntax */ "Abre @Chrome y navega a openai.com" "Calcula 15% de 342 en @Calculator" "Envía un mensaje en @Slack al canal #general" "Crea una tabla en @Excel con estos datos" "Busca el email de John en @Mail"
Esto permite operaciones multi-app simultáneas sin intervención del usuario. El modelo identifica la ventana target, la activa, ejecuta la acción, y opcionalmente retorna a la app anterior.
computerAdemás de la Desktop App, OpenAI ofrece Computer Use programáticamente vía la Responses API con la tool computer:
gpt-5.4 y superioresAnthropic ofrece Computer Use en tres modalidades distintas, cada una en un estado de madurez diferente:
La modalidad más madura. Disponible como beta en la API de Anthropic desde octubre 2024.
computer_20251124anthropic-beta: computer-use-2025-11-24| Acción | Descripción |
|---|---|
screenshot | Captura de pantalla completa o región |
left_click | Clic izquierdo |
middle_click | Clic medio (rueda) |
right_click | Clic derecho |
type | Escribir texto |
key | Tecla individual |
scroll | Scroll vertical/horizontal |
zoom | Zoom in/out |
drag | Arrastrar |
hold_key | Mantener tecla presionada (útil para modales) |
Desde la semana 13-14 de 2026, Claude Code incluye Computer Use como Research Preview:
computer-use — se activa vía /mcpAnthropic tiene el ecosistema MCP más grande para desktop automation, con 10+ servidores open-source:
| Proyecto | Plataforma | Tools | Engine |
|---|---|---|---|
| desktop-touch-mcp | Windows | 29 | Rust UIA Automation |
| WindowComputerUse | Windows | 64 | Virtual cursor + OCR |
| win32-mcp-server | Windows | 53 | UIA control tree |
| macOS-MCP | macOS | 12 | Accessibility API |
| computer-use-mcp | macOS | 24 | Native Claude binaries |
| claude-local-control | Linux X11 | Computer+Bash+Editor | Direct PC control |
| ControlMCP | Win/Mac/Linux | 34 | Grid-based + JetBrains |
| ghost-mcp | Win/Mac/Linux | 25+ | Tesseract OCR |
| mcp-vnc | Multi (VNC) | 12 | Remote VNC |
El issue #30755 para un browser built-in está abierto y asignado a Brendonovich del core team. Cuando se implemente, permitiría navegación web nativa sin depender de herramientas externas.
OpenCode puede controlar el desktop mediante comandos shell ejecutados por el modelo. Es un enfoque indirecto, frágil y OS-dependent:
# Screenshots import subprocess subprocess.run(["scrot", "-d", "1", "/tmp/screen.png"]) # X11 subprocess.run(["grim", "/tmp/screen.png"]) # Wayland # Mouse/keyboard (X11) subprocess.run(["xdotool", "mousemove", "100", "200"]) subprocess.run(["xdotool", "click", "1"]) subprocess.run(["xdotool", "type", "Hello World"]) # Mouse/keyboard (Wayland) subprocess.run(["ydotool", "mousemove", "--x", "100", "--y", "200"])
# Screenshot subprocess.run(["screencapture", "-C", "/tmp/screen.png"]) # Mouse/keyboard subprocess.run(["cliclick", "m:100,200"]) # move subprocess.run(["cliclick", "c:100,200"]) # click subprocess.run(["cliclick", "t:Hello World"]) # type # Clipboard subprocess.run(["pbcopy"], input="text", text=True) result = subprocess.run(["pbpaste"], capture_output=True, text=True)
# PowerShell SendKeys powershell "Add-Type -AssemblyName System.Windows.Forms; [System.Windows.Forms.SendKeys]::SendWait('Hello World')" # Screenshot via PowerShell powershell "Add-Type -AssemblyName System.Drawing; ..."
import pyautogui # Screenshot screenshot = pyautogui.screenshot("/tmp/screen.png") # Mouse pyautogui.moveTo(100, 200) pyautogui.click() pyautogui.drag(50, 0, duration=0.5) # Keyboard pyautogui.write("Hello World") pyautogui.hotkey("ctrl", "c")
OpenCode puede compensar su falta de Computer Use nativo mediante el ecosistema MCP:
OpenCode no está locked-in a un proveedor de modelos. Puede usar cualquier LLM (OpenAI, Anthropic, Google, Mistral, open-source via Ollama) para generar los comandos de desktop automation. Esto es una ventaja si tu workflow requiere modelos específicos para distintas subtareas.
✘ No existe Computer Use nativo (issue #20490 cerrado)
✔ Browser built-in en desarrollo (issue #30755, Brendonovich)
✔ Control indirecto vía Bash + xdotool/pyautogui/cliclick
✔ MCP compatible — puede usar servidores del ecosistema Claude
✔ Model-agnóstico — cualquier LLM para generar comandos
| Dimensión | Codex Desktop App | Claude API | Claude Code / Desktop | OpenCode |
|---|---|---|---|---|
| Screen capture | Native | API-driven | Built-in | Bash only |
| Mouse/keyboard | Native (10 acciones) | API (10 acciones) | Built-in | Bash |
| Browser control | @Chrome nativo | MCP Playwright | MCP Playwright | MCP Playwright |
| Multi-app simultáneo | ✔ @AppName | Manual loop | Lock machine | ✘ |
| Background mode | macOS | N/A | Foreground only | N/A |
| Locked use | macOS | N/A | ✘ | N/A |
| Costo | Suscripción plana | $2-6/20 pasos | Pro/Max req. | Gratis |
| Estado | GA | Beta | Research Preview | No existe |
| Países | No EEA/UK/CH | Global | Global | Global |
| Model lock-in | OpenAI only | Anthropic only | Anthropic only | Agnóstico |
| Acciones soportadas | 10 | 10 | 10 | N/A (Bash) |
| Precisión reportada | ~72% (OSWorld) | ~65% (OSWorld) | ~65% (OSWorld) | Variable |
| Latencia típica | 1–3s | 2–8s | 2–8s | Depende del modelo |
| macOS | ✔ Background | ✔ Agent loop | ✔ | Bash |
| Windows | Foreground only | ✔ Agent loop | Foreground only | Bash |
| Linux | ✘ | ✔ Agent loop | ✘ | Bash (X11/Wayland) |
| MCP ecosystem | Compatible | 10+ servers | 10+ servers | Compatible |
| Plugins comunitarios | Plugin directory | MCP servers | MCP servers | npm packages |
| API programática | Responses API | Messages API | CLI only | ✘ |
| Sandboxing | Per-action approval | Developer-defined | Per-app approval | No sandbox |
| Approval gates | Por acción | Developer-defined | Por app (sesión) | N/A |
Independientemente de la plataforma, el ecosistema MCP ofrece servidores especializados para desktop automation. La mayoría son cross-platform compatibles (cualquier cliente MCP puede usarlos):
| Proyecto | Plataforma | Tools | Engine | Descripción |
|---|---|---|---|---|
| desktop-touch-mcp | Windows | 29 | Rust UIA | UI Automation tree + touch simulation. Sin OCR, pero navega por la estructura de accesibilidad nativa de Windows. |
| WindowComputerUse | Windows | 64 | Virtual cursor + OCR | El más completo para Windows. Combina virtual cursor positioning con OCR para leer texto de la interfaz. |
| win32-mcp-server | Windows | 53 | UIA control tree | Navegación por el árbol de controles de accesibilidad de Windows. Ideal para apps Win32/WPF. |
| macOS-MCP | macOS | 12 | Accessibility API | Usa la Accessibility API nativa de macOS. Ligero pero funcional. |
| computer-use-mcp | macOS | 24 | Native Claude binaries | Standalone. Usa los binarios nativos de Computer Use de Claude. 24 tools para control completo. |
| claude-local-control | Linux X11 | Computer+Bash+Editor | Direct PC control | Control directo de PC para Linux X11. Incluye Computer Use + Bash + Editor integrados. |
| ControlMCP | Win/Mac/Linux | 34 | Grid-based + JetBrains | Cross-platform. Grid-based pixel mapping + integración con JetBrains IDEs. |
| ghost-mcp | Win/Mac/Linux | 25+ | Tesseract OCR | OCR-based. Usa Tesseract para leer texto de pantalla. 25+ tools para screen scraping. |
| mcp-vnc | Multi (VNC) | 12 | Remote VNC | Control remoto vía VNC. Útil para servidores headless o máquinas virtuales. |
computer_20251124)Codex Desktop App
GA, multi-app, background mode. La única opción lista para deployment empresarial.
Claude API
Beta madura, más acciones, reference implementations. Ideal si tienes presupuesto.
OpenCode + MCP
Limitado pero model-agnóstico. Bueno para experimentación y flujos simples.
Cualquiera + Playwright MCP
El testing de browsers no requiere Computer Use — Playwright MCP funciona en todas.
Codex Desktop App
@AppName syntax es la killer feature para flujos multi-aplicación.
Claude API o Codex API
Las APIs no tienen restricciones regionales. Evitar Codex Desktop App.
/* ¿Qué plataforma de Computer Use elegir? */ if (produccion && (macOS || "API sin región")) → Codex Desktop App else if (presupuesto && control && beta_ok) → Claude API (computer_20251124) else if (experimentación && model_agnóstico) → OpenCode + MCP + Bash else if (testing browsers) → Playwright MCP (cualquier plataforma) else if (Windows && producción) → Codex Desktop App (con caveats de foreground-only)
Ninguna plataforma cubre todos los casos de uso. Una arquitectura híbrida realista aprovecha las fortalezas de cada una:
/* Ejemplo de arquitectura híbrida */ /* Paso 1: OpenCode orquesta */ opencode plan "Preparar reporte mensual" → Codex Desktop: abrir @Excel, extraer datos → Claude API: analizar tendencias (computer_20251124) → OpenCode: git commit del reporte generado
Esta investigación fue construida a partir de documentación oficial, código fuente, issues públicos, y benchmarks verificados. Última verificación: Junio 2026.
Última verificación: Junio 2026. Las especificaciones y documentación pueden cambiar; consulte las fuentes oficiales para información actualizada.