Contenido

  1. Introducción — ¿Qué es Computer Use?
  2. Codex Desktop App (OpenAI) — La Solución GA
  3. Claude / Claude Code (Anthropic) — Beta + Research Preview
  4. OpenCode — El que NO tiene Computer Use Nativo
  5. Tabla Comparativa Detallada (20+ dimensiones)
  6. Ecosistema MCP de Desktop Automation
  7. Fortalezas y Debilidades
  8. Guía de Decisión
  9. Estrategia Híbrida
  10. Fuentes Verificadas

1Introducción — ¿Qué es Computer Use?

Computer Use (también llamado GUI Agent o Desktop Automation Agent) es la capacidad de un modelo de lenguaje de procesar capturas de pantalla, decidir acciones de interfaz (clic, teclear, arrastrar), y ejecutarlas mediante coordinación con mouse y teclado. El ciclo fundamental es:

/* Ciclo básico de Computer Use */
1. Screenshot → modelo analiza píxeles
2. Modelo decide acción (tipo + coordenadas + parámetros)
3. Sistema ejecuta acción sobre la interfaz real
4. Nuevo screenshot → loop

Este paradigma es radicalmente distinto de las APIs tradicionales (REST, SDKs) porque opera sobre la interfaz visual tal como la ve un humano. No requiere integración programática con la aplicación objetivo.

¿Por qué es importante?

ℹ️ Contexto: Las tres plataformas comparadas tienen enfoques radicalmente distintos. Codex Desktop App ofrece Computer Use como GA integrado. Claude lo ofrece como Beta vía API y Research Preview en su Desktop App. OpenCode (el CLI) no tiene Computer Use nativo — depende enteramente de Bash y MCP comunitario.

2Codex Desktop App (OpenAI) — La Solución GA

⚠️ Precisión terminológica: El CLI de Codex (codex en terminal) NO tiene Computer Use. Es la Desktop App (aplicación nativa macOS/Windows) la que integra esta funcionalidad. Son productos distintos aunque compartan el mismo modelo base.

Plugin Computer Use Integrado

La Desktop App de Codex incluye un Plugin Computer Use que se activa desde la interfaz de la aplicación. El plugin implementa el ciclo screenshot → decisión → acción como un sandboxed executive loop con aprobación por acción.

Estado

GA General Availability desde Abril 2026. No es preview ni beta — es la única plataforma con Computer Use en producción.

Acciones Soportadas

AcciónDescripción
screenshotCaptura la pantalla completa o una ventana específica
left_clickClic izquierdo en coordenadas (x, y)
right_clickClic derecho en coordenadas
double_clickDoble clic en coordenadas
typeEscribe texto en el campo activo
scrollScroll vertical/horizontal
keypressTecla individual o combinación (Ctrl+C, etc.)
moveMover cursor a coordenadas
dragArrastrar de (x1,y1) a (x2,y2)
clipboardLeer/escribir portapapeles

@AppName Syntax — Control por Aplicación

La innovación más relevante de Codex Desktop es la sintaxis @AppName que permite dirigir acciones a aplicaciones específicas:

/* Ejemplos de @AppName syntax */
"Abre @Chrome y navega a openai.com"
"Calcula 15% de 342 en @Calculator"
"Envía un mensaje en @Slack al canal #general"
"Crea una tabla en @Excel con estos datos"
"Busca el email de John en @Mail"

Esto permite operaciones multi-app simultáneas sin intervención del usuario. El modelo identifica la ventana target, la activa, ejecuta la acción, y opcionalmente retorna a la app anterior.

Soporte por Plataforma

Restricciones Regionales

🌍 Importante: La funcionalidad Computer Use de la Desktop App NO está disponible en EEA (Espacio Económico Europeo), Reino Unido, ni Suiza. Sin embargo, la API (Responses API) no tiene estas restricciones regionales.

API Alternativa — Responses API con tool computer

Además de la Desktop App, OpenAI ofrece Computer Use programáticamente vía la Responses API con la tool computer:

💡 Dato clave: Si necesitas Computer Use desde EEA/UK/Suiza, usa la Responses API directamente — la Desktop App tiene bloqueo regional pero la API no.

3Claude / Claude Code (Anthropic) — Beta + Research Preview

Anthropic ofrece Computer Use en tres modalidades distintas, cada una en un estado de madurez diferente:

3.1 API Computer Use (Beta)

La modalidad más madura. Disponible como beta en la API de Anthropic desde octubre 2024.

Acciones Soportadas

AcciónDescripción
screenshotCaptura de pantalla completa o región
left_clickClic izquierdo
middle_clickClic medio (rueda)
right_clickClic derecho
typeEscribir texto
keyTecla individual
scrollScroll vertical/horizontal
zoomZoom in/out
dragArrastrar
hold_keyMantener tecla presionada (útil para modales)
ℹ️ Implementación: El desarrollador es responsable del agent loop completo: capturar screenshot → enviar a API → recibir acción → ejecutar → capturar nuevo screenshot. Anthropic provee reference implementations en Python y TypeScript.

3.2 Claude Code CLI — Research Preview (Marzo 2026)

Desde la semana 13-14 de 2026, Claude Code incluye Computer Use como Research Preview:

3.3 Claude Desktop App — Research Preview (Marzo 2026)

3.4 Ecosistema MCP de Desktop Automation

Anthropic tiene el ecosistema MCP más grande para desktop automation, con 10+ servidores open-source:

ProyectoPlataformaToolsEngine
desktop-touch-mcpWindows29Rust UIA Automation
WindowComputerUseWindows64Virtual cursor + OCR
win32-mcp-serverWindows53UIA control tree
macOS-MCPmacOS12Accessibility API
computer-use-mcpmacOS24Native Claude binaries
claude-local-controlLinux X11Computer+Bash+EditorDirect PC control
ControlMCPWin/Mac/Linux34Grid-based + JetBrains
ghost-mcpWin/Mac/Linux25+Tesseract OCR
mcp-vncMulti (VNC)12Remote VNC

Limitaciones de Claude Computer Use

💰 Costo: 20 pasos de Computer Use en Claude API pueden costar $2–6. Un flujo simple de "abrir Chrome, navegar a X, extraer datos, guardar en Excel" fácilmente consume 30-50 pasos. Planificar presupuesto.

4OpenCode — El que NO tiene Computer Use Nativo

🚫 Realidad: OpenCode (el CLI) no tiene Computer Use nativo. No existe screenshot tool built-in, no hay mouse/keyboard tool, no hay agent loop de desktop. El issue #20490 fue cerrado sin implementación.

Browser built-in — En desarrollo

El issue #30755 para un browser built-in está abierto y asignado a Brendonovich del core team. Cuando se implemente, permitiría navegación web nativa sin depender de herramientas externas.

Bash Indirecto — La alternativa actual

OpenCode puede controlar el desktop mediante comandos shell ejecutados por el modelo. Es un enfoque indirecto, frágil y OS-dependent:

Linux

# Screenshots
import subprocess
subprocess.run(["scrot", "-d", "1", "/tmp/screen.png"])  # X11
subprocess.run(["grim", "/tmp/screen.png"])                   # Wayland

# Mouse/keyboard (X11)
subprocess.run(["xdotool", "mousemove", "100", "200"])
subprocess.run(["xdotool", "click", "1"])
subprocess.run(["xdotool", "type", "Hello World"])

# Mouse/keyboard (Wayland)
subprocess.run(["ydotool", "mousemove", "--x", "100", "--y", "200"])

macOS

# Screenshot
subprocess.run(["screencapture", "-C", "/tmp/screen.png"])

# Mouse/keyboard
subprocess.run(["cliclick", "m:100,200"])     # move
subprocess.run(["cliclick", "c:100,200"])     # click
subprocess.run(["cliclick", "t:Hello World"])  # type

# Clipboard
subprocess.run(["pbcopy"], input="text", text=True)
result = subprocess.run(["pbpaste"], capture_output=True, text=True)

Windows

# PowerShell SendKeys
powershell "Add-Type -AssemblyName System.Windows.Forms; [System.Windows.Forms.SendKeys]::SendWait('Hello World')"

# Screenshot via PowerShell
powershell "Add-Type -AssemblyName System.Drawing; ..."

Cross-platform (Python)

import pyautogui

# Screenshot
screenshot = pyautogui.screenshot("/tmp/screen.png")

# Mouse
pyautogui.moveTo(100, 200)
pyautogui.click()
pyautogui.drag(50, 0, duration=0.5)

# Keyboard
pyautogui.write("Hello World")
pyautogui.hotkey("ctrl", "c")
⚠️ Problemas del enfoque Bash: El modelo debe generar comandos shell correctos para el OS específico (X11 vs Wayland vs macOS vs Windows). Los comandos son frágiles ante cambios de resolución, DPI, disposición de ventanas. No hay feedback visual automático (el modelo no ve el resultado de su acción a menos que se capture otro screenshot explícitamente).

MCP y Plugins Comunitarios

OpenCode puede compensar su falta de Computer Use nativo mediante el ecosistema MCP:

Ventaja Estratégica: Model-Agnóstico

OpenCode no está locked-in a un proveedor de modelos. Puede usar cualquier LLM (OpenAI, Anthropic, Google, Mistral, open-source via Ollama) para generar los comandos de desktop automation. Esto es una ventaja si tu workflow requiere modelos específicos para distintas subtareas.

📊 Resumen: Computer Use en OpenCode

No existe Computer Use nativo (issue #20490 cerrado)
Browser built-in en desarrollo (issue #30755, Brendonovich)
Control indirecto vía Bash + xdotool/pyautogui/cliclick
MCP compatible — puede usar servidores del ecosistema Claude
Model-agnóstico — cualquier LLM para generar comandos

5Tabla Comparativa Detallada (20+ dimensiones)

Dimensión Codex Desktop App Claude API Claude Code / Desktop OpenCode
Screen capture Native API-driven Built-in Bash only
Mouse/keyboard Native (10 acciones) API (10 acciones) Built-in Bash
Browser control @Chrome nativo MCP Playwright MCP Playwright MCP Playwright
Multi-app simultáneo ✔ @AppName Manual loop Lock machine
Background mode macOS N/A Foreground only N/A
Locked use macOS N/A N/A
Costo Suscripción plana $2-6/20 pasos Pro/Max req. Gratis
Estado GA Beta Research Preview No existe
Países No EEA/UK/CH Global Global Global
Model lock-in OpenAI only Anthropic only Anthropic only Agnóstico
Acciones soportadas 10 10 10 N/A (Bash)
Precisión reportada ~72% (OSWorld) ~65% (OSWorld) ~65% (OSWorld) Variable
Latencia típica 1–3s 2–8s 2–8s Depende del modelo
macOS ✔ Background ✔ Agent loop Bash
Windows Foreground only ✔ Agent loop Foreground only Bash
Linux ✔ Agent loop Bash (X11/Wayland)
MCP ecosystem Compatible 10+ servers 10+ servers Compatible
Plugins comunitarios Plugin directory MCP servers MCP servers npm packages
API programática Responses API Messages API CLI only
Sandboxing Per-action approval Developer-defined Per-app approval No sandbox
Approval gates Por acción Developer-defined Por app (sesión) N/A
📊 OSWorld: Benchmark estándar de GUI navigation. Codex Desktop App reporta ~72% de precisión en tareas multi-step. Claude Opus 4.8 ~65%. OpenCode no tiene puntuación oficial porque no existe Computer Use nativo.

6Ecosistema MCP de Desktop Automation

Independientemente de la plataforma, el ecosistema MCP ofrece servidores especializados para desktop automation. La mayoría son cross-platform compatibles (cualquier cliente MCP puede usarlos):

Proyecto Plataforma Tools Engine Descripción
desktop-touch-mcp Windows 29 Rust UIA UI Automation tree + touch simulation. Sin OCR, pero navega por la estructura de accesibilidad nativa de Windows.
WindowComputerUse Windows 64 Virtual cursor + OCR El más completo para Windows. Combina virtual cursor positioning con OCR para leer texto de la interfaz.
win32-mcp-server Windows 53 UIA control tree Navegación por el árbol de controles de accesibilidad de Windows. Ideal para apps Win32/WPF.
macOS-MCP macOS 12 Accessibility API Usa la Accessibility API nativa de macOS. Ligero pero funcional.
computer-use-mcp macOS 24 Native Claude binaries Standalone. Usa los binarios nativos de Computer Use de Claude. 24 tools para control completo.
claude-local-control Linux X11 Computer+Bash+Editor Direct PC control Control directo de PC para Linux X11. Incluye Computer Use + Bash + Editor integrados.
ControlMCP Win/Mac/Linux 34 Grid-based + JetBrains Cross-platform. Grid-based pixel mapping + integración con JetBrains IDEs.
ghost-mcp Win/Mac/Linux 25+ Tesseract OCR OCR-based. Usa Tesseract para leer texto de pantalla. 25+ tools para screen scraping.
mcp-vnc Multi (VNC) 12 Remote VNC Control remoto vía VNC. Útil para servidores headless o máquinas virtuales.
🔌 Compatibilidad: Todos estos servidores MCP son compatibles con Claude Code (nativo), OpenCode (vía configuración MCP), y Codex (vía MCP bridge). La ventaja de Claude es que tiene el ecosistema más rico porque los servidores fueron creados para su plataforma.

7Fortalezas y Debilidades

Codex Desktop App (OpenAI)

✔ Fortalezas

✘ Debilidades

Claude / Claude Code (Anthropic)

✔ Fortalezas

✘ Debilidades

OpenCode

✔ Fortalezas

✘ Debilidades

8Guía de Decisión

🏭

¿Producción?

Codex Desktop App
GA, multi-app, background mode. La única opción lista para deployment empresarial.

🔬

¿Máximo control?

Claude API
Beta madura, más acciones, reference implementations. Ideal si tienes presupuesto.

🦄

¿Team OpenCode?

OpenCode + MCP
Limitado pero model-agnóstico. Bueno para experimentación y flujos simples.

🌐

¿Testing browsers?

Cualquiera + Playwright MCP
El testing de browsers no requiere Computer Use — Playwright MCP funciona en todas.

📋

¿RPA multi-app?

Codex Desktop App
@AppName syntax es la killer feature para flujos multi-aplicación.

🌍

¿EEA/UK/Suiza?

Claude API o Codex API
Las APIs no tienen restricciones regionales. Evitar Codex Desktop App.

Árbol de Decisión Rápido

/* ¿Qué plataforma de Computer Use elegir? */

if (produccion && (macOS || "API sin región"))
  → Codex Desktop App
else if (presupuesto && control && beta_ok)
  → Claude API (computer_20251124)
else if (experimentación && model_agnóstico)
  → OpenCode + MCP + Bash
else if (testing browsers)
  → Playwright MCP (cualquier plataforma)
else if (Windows && producción)
  → Codex Desktop App (con caveats de foreground-only)

9Estrategia Híbrida

Ninguna plataforma cubre todos los casos de uso. Una arquitectura híbrida realista aprovecha las fortalezas de cada una:

🎯 Arquitectura Recomendada

  • Codex Desktop App para producción — flujos RPA multi-app que requieren GA, background mode, y @AppName syntax. La única opción lista para deployment sin supervisión.
  • Claude API para tareas complejas — cuando el razonamiento del modelo es crítico y hay presupuesto para 30-50 pasos. Mejor para investigación y flujos que requieren hold_key, zoom, middle_click.
  • OpenCode como orquestador — para tareas que no requieren Computer Use (edición de código, git, terminal) pero que forman parte del mismo workflow. Model-agnóstico: usa GPT-5.4 para coding y Claude para razonamiento.
/* Ejemplo de arquitectura híbrida */
/* Paso 1: OpenCode orquesta */
opencode plan "Preparar reporte mensual"
  → Codex Desktop: abrir @Excel, extraer datos
  → Claude API: analizar tendencias (computer_20251124)
  → OpenCode: git commit del reporte generado
⚠️ Nota: La integración entre plataformas no es trivial. Cada plataforma tiene su propio context window, sistema de archivos, y permisos. La estrategia híbrida es viable pero requiere infraestructura de coordinación (colas, webhooks, o un orquestador externo).

10Fuentes Verificadas

Esta investigación fue construida a partir de documentación oficial, código fuente, issues públicos, y benchmarks verificados. Última verificación: Junio 2026.

OpenAI — Codex Desktop App

Anthropic — Claude / Claude Code

OpenCode

MCP Ecosystem

Benchmarks

Última verificación: Junio 2026. Las especificaciones y documentación pueden cambiar; consulte las fuentes oficiales para información actualizada.