Agent Browser: automatiza el navegador con IA sin MCPs
En los últimos meses han aparecido muchas herramientas para manipular el navegador usando inteligencia artificial. La mayoría de ellas se apoyan en MCPs (Model Context Protocol), screenshots y análisis visual.
Pero hoy vamos a hablar de una alternativa distinta y muy interesante: Agent Browser.
Agent Browser propone otro enfoque: automatizar el navegador usando comandos de consola, pensados directamente para agentes de IA, reduciendo complejidad y consumo de tokens.
En este artículo veremos qué es, cómo funciona y por qué puede ser útil en tus proyectos.
¿Qué es Agent Browser?
Agent Browser es una herramienta de automatización de navegador orientada a agentes inteligentes, que se utiliza principalmente desde la línea de comandos (CLI).
A diferencia de otras soluciones populares como Playwright MCP o Chrome DevTools MCP:
- ❌ No es un MCP
- ✅ No depende de screenshots constantes
- ✅ Trabaja directamente con el árbol del DOM
- ✅ Consume menos tokens
- ✅ Está pensada para integrarse fácilmente con agentes de IA
Está desarrollada principalmente en Rust, lo que en teoría la hace más rápida que muchas alternativas basadas únicamente en Node.js.
¿Por qué usar Agent Browser en lugar de un MCP?
La diferencia clave está en cómo entiende la página.
En lugar de:
- tomar capturas,
- analizar imágenes,
- reinterpretar visualmente el DOM,
Agent Browser:
- Analiza primero la estructura del DOM
- Construye un árbol de elementos
- Asigna referencias deterministas a cada nodo
- Interactúa directamente con esos nodos
Esto trae varias ventajas importantes:
- 🔹 Menos tokens para la IA
- 🔹 Referencias únicas y estables
- 🔹 Menos reprocesamiento del DOM
- 🔹 Contexto mucho más claro para el agente
En lugar de pasarle a la IA un HTML enorme, se le entrega una lista resumida y precisa de elementos interactuables.
Instalación de Agent Browser
La instalación se realiza desde consola y está pensada para Linux y macOS.
⚠️ En Windows no funciona directamente porque el script usa
sh.
Si estás en Windows, puedes usar WSL sin problemas.
El proceso de instalación:
- Descarga el CLI
- Instala dependencias internas
- Incluye Chromium
- Usa Playwright internamente como servicio
Una vez instalado, ya puedes empezar a interactuar con el navegador.
Uso básico desde la terminal
Abrir una página:
agent-browser open https://example.com
Obtener un snapshot del DOM con referencias:
agent-browser snapshot -i
Este comando devuelve una lista de elementos con identificadores únicos (@e1, @e2, etc.), que luego se pueden usar para interactuar.
Este sistema de referencias es:
- determinista
- rápido
- ideal para agentes de IA
¿Cómo interactúa Agent Browser con la IA?
Por defecto, Agent Browser es solo un CLI.
La IA no “sabe” que existe… hasta que tú se lo explicas.
Aquí entran dos opciones clave:
Agent Mode: integración con agentes de IA
Agent Browser incluye un Agent Mode, que permite integrarlo con agentes como:
- Claude Code
- Cursor
- OpenCode
- Codex
En este modo, los comandos se devuelven en un formato estructurado que la IA puede interpretar fácilmente.
La IA aprende:
- qué comandos existen
- cómo navegar
- cómo hacer snapshots
- cómo interactuar con formularios y flujos
Ejemplo: testear un flujo de login con IA
Un caso típico:
- Abrir una aplicación web
- Navegar al login
- Completar credenciales
- Enviar formulario
- Verificar respuesta
La IA:
- Ejecuta
agent-browser help - Aprende los comandos disponibles
- Abre la página
- Analiza el DOM
- Llena formularios
- Valida el resultado
Todo esto sin manipular directamente el DOM desde el navegador visible, usando modo headless por defecto.
Headless vs Headed
Por defecto, Agent Browser trabaja en modo headless (sin abrir ventana).
Pero también puedes pedir explícitamente que:
- desactive el modo headless
- abra Chromium
- muestre visualmente cada acción
Esto es muy útil para:
- debugging
- demos
- entender exactamente qué está haciendo el agente
Evitar repetir instrucciones: skills
Es poco práctico explicarle a la IA los comandos cada vez.
Por eso Agent Browser soporta skills.
Un skill es básicamente un archivo de configuración que:
- le da contexto al agente
- define cómo usar Agent Browser
- simplifica las instrucciones
Instalación de skills (forma recomendada)
Puedes instalar el skill manualmente, pero lo más cómodo es usar Skill CCH, un índice de skills para agentes (similar a un npm, pero para agentes).
Desde ahí:
- buscas Agent Browser
- copias el comando
- eliges en qué agentes instalarlo (Claude, Cursor, etc.)
- decides si instalarlo globalmente o por proyecto
La recomendación es:
✅ instalarlo por proyecto, no global
Estructura de archivos que se crea
Al instalar el skill se crean carpetas como:
agents/(configuración genérica)claude/cursor/
Cada agente tiene su propia configuración, pero comparten la lógica principal.
Uso con skills: mucho más simple
Una vez instalado el skill, ya no necesitas explicar nada.
Puedes decirle directamente a la IA:
“Testea el flujo de login usando Agent Browser”
Y el agente:
- sabe qué comandos usar
- sabe cómo navegar
- sabe cómo analizar la página
Mucho más limpio y práctico.
Uso programático y en CI/CD
Agent Browser no es solo CLI.
También puedes:
- instalarlo como paquete (
npm install agent-browser) - usarlo desde código
- integrarlo en pipelines de CI/CD
- testear aplicaciones automáticamente
Este es uno de los usos más comunes en entornos reales.
Conectarse a un navegador existente
Otra opción avanzada es conectar Agent Browser a una instancia real de Chrome.
Solo necesitas:
- lanzar Chrome con
--remote-debugging-port - indicarle ese puerto a Agent Browser
De esta forma puede manipular:
- sesiones existentes
- cookies
- usuarios ya logueados
Uso en la nube
Si utilizas servicios como:
- Browserbase
- Browser Use
Puedes conectar sus API keys y ejecutar Agent Browser en la nube, sin depender de un navegador local.
Opinión final
Agent Browser es una alternativa muy interesante para automatizar navegadores con IA:
- No reemplaza a Playwright en todos los casos
- Puede ser más lento en algunos escenarios
- Pero ahorra tokens
- Simplifica el contexto para la IA
- Funciona muy bien con agentes
Si estás trabajando con:
- testing automático
- agentes de IA
- flujos web complejos
- CI/CD
Vale totalmente la pena probarlo y compararlo con otras herramientas.
Si tienes dudas, déjalas en los comentarios.
Y si quieres ver esto en acción, te recomiendo instalarlo y experimentar tú mismo.
Nos vemos en el próximo tutorial.