Automatizar el navegador con IA sin Playwright ni MCP | Fazt.dev

Agent Browser: automatiza el navegador con IA sin MCPs

En los últimos meses han aparecido muchas herramientas para manipular el navegador usando inteligencia artificial. La mayoría de ellas se apoyan en MCPs (Model Context Protocol), screenshots y análisis visual.
Pero hoy vamos a hablar de una alternativa distinta y muy interesante: Agent Browser.

Agent Browser propone otro enfoque: automatizar el navegador usando comandos de consola, pensados directamente para agentes de IA, reduciendo complejidad y consumo de tokens.

En este artículo veremos qué es, cómo funciona y por qué puede ser útil en tus proyectos.

¿Qué es Agent Browser?

Agent Browser es una herramienta de automatización de navegador orientada a agentes inteligentes, que se utiliza principalmente desde la línea de comandos (CLI).

A diferencia de otras soluciones populares como Playwright MCP o Chrome DevTools MCP:

❌ No es un MCP
✅ No depende de screenshots constantes
✅ Trabaja directamente con el árbol del DOM
✅ Consume menos tokens
✅ Está pensada para integrarse fácilmente con agentes de IA

Está desarrollada principalmente en Rust, lo que en teoría la hace más rápida que muchas alternativas basadas únicamente en Node.js.

¿Por qué usar Agent Browser en lugar de un MCP?

La diferencia clave está en cómo entiende la página.

En lugar de:

tomar capturas,
analizar imágenes,
reinterpretar visualmente el DOM,

Agent Browser:

Analiza primero la estructura del DOM
Construye un árbol de elementos
Asigna referencias deterministas a cada nodo
Interactúa directamente con esos nodos

Esto trae varias ventajas importantes:

🔹 Menos tokens para la IA
🔹 Referencias únicas y estables
🔹 Menos reprocesamiento del DOM
🔹 Contexto mucho más claro para el agente

En lugar de pasarle a la IA un HTML enorme, se le entrega una lista resumida y precisa de elementos interactuables.

Instalación de Agent Browser

La instalación se realiza desde consola y está pensada para Linux y macOS.

⚠️ En Windows no funciona directamente porque el script usa sh.
Si estás en Windows, puedes usar WSL sin problemas.

El proceso de instalación:

Descarga el CLI
Instala dependencias internas
Incluye Chromium
Usa Playwright internamente como servicio

Una vez instalado, ya puedes empezar a interactuar con el navegador.

Uso básico desde la terminal

Abrir una página:

agent-browser open https://example.com

Obtener un snapshot del DOM con referencias:

agent-browser snapshot -i

Este comando devuelve una lista de elementos con identificadores únicos (@e1, @e2, etc.), que luego se pueden usar para interactuar.

Este sistema de referencias es:

determinista
rápido
ideal para agentes de IA

¿Cómo interactúa Agent Browser con la IA?

Por defecto, Agent Browser es solo un CLI.
La IA no “sabe” que existe… hasta que tú se lo explicas.

Aquí entran dos opciones clave:

Agent Mode: integración con agentes de IA

Agent Browser incluye un Agent Mode, que permite integrarlo con agentes como:

Claude Code
Cursor
OpenCode
Codex

En este modo, los comandos se devuelven en un formato estructurado que la IA puede interpretar fácilmente.

La IA aprende:

qué comandos existen
cómo navegar
cómo hacer snapshots
cómo interactuar con formularios y flujos

Ejemplo: testear un flujo de login con IA

Un caso típico:

Abrir una aplicación web
Navegar al login
Completar credenciales
Enviar formulario
Verificar respuesta

La IA:

Ejecuta agent-browser help
Aprende los comandos disponibles
Abre la página
Analiza el DOM
Llena formularios
Valida el resultado

Todo esto sin manipular directamente el DOM desde el navegador visible, usando modo headless por defecto.

Headless vs Headed

Por defecto, Agent Browser trabaja en modo headless (sin abrir ventana).

Pero también puedes pedir explícitamente que:

desactive el modo headless
abra Chromium
muestre visualmente cada acción

Esto es muy útil para:

debugging
demos
entender exactamente qué está haciendo el agente

Evitar repetir instrucciones: skills

Es poco práctico explicarle a la IA los comandos cada vez.
Por eso Agent Browser soporta skills.

Un skill es básicamente un archivo de configuración que:

le da contexto al agente
define cómo usar Agent Browser
simplifica las instrucciones

Instalación de skills (forma recomendada)

Puedes instalar el skill manualmente, pero lo más cómodo es usar Skill CCH, un índice de skills para agentes (similar a un npm, pero para agentes).

Desde ahí:

buscas Agent Browser
copias el comando
eliges en qué agentes instalarlo (Claude, Cursor, etc.)
decides si instalarlo globalmente o por proyecto

La recomendación es:

✅ instalarlo por proyecto, no global

Estructura de archivos que se crea

Al instalar el skill se crean carpetas como:

agents/ (configuración genérica)
claude/
cursor/

Cada agente tiene su propia configuración, pero comparten la lógica principal.

Uso con skills: mucho más simple

Una vez instalado el skill, ya no necesitas explicar nada.

Puedes decirle directamente a la IA:

“Testea el flujo de login usando Agent Browser”

Y el agente:

sabe qué comandos usar
sabe cómo navegar
sabe cómo analizar la página

Mucho más limpio y práctico.

Uso programático y en CI/CD

Agent Browser no es solo CLI.

También puedes:

instalarlo como paquete (npm install agent-browser)
usarlo desde código
integrarlo en pipelines de CI/CD
testear aplicaciones automáticamente

Este es uno de los usos más comunes en entornos reales.

Conectarse a un navegador existente

Otra opción avanzada es conectar Agent Browser a una instancia real de Chrome.

Solo necesitas:

lanzar Chrome con --remote-debugging-port
indicarle ese puerto a Agent Browser

De esta forma puede manipular:

sesiones existentes
cookies
usuarios ya logueados

Uso en la nube

Si utilizas servicios como:

Browserbase
Browser Use

Puedes conectar sus API keys y ejecutar Agent Browser en la nube, sin depender de un navegador local.

Opinión final

Agent Browser es una alternativa muy interesante para automatizar navegadores con IA:

No reemplaza a Playwright en todos los casos
Puede ser más lento en algunos escenarios
Pero ahorra tokens
Simplifica el contexto para la IA
Funciona muy bien con agentes

Si estás trabajando con:

testing automático
agentes de IA
flujos web complejos
CI/CD

Vale totalmente la pena probarlo y compararlo con otras herramientas.

Si tienes dudas, déjalas en los comentarios.
Y si quieres ver esto en acción, te recomiendo instalarlo y experimentar tú mismo.

Nos vemos en el próximo tutorial.