Grok Build Review: Probé el Nuevo Agente de xAI y esto pasó (¿Vale $99?) | Fazt.dev

Probé Grok Build, el agente de IA de xAI: ¿vale la pena frente a Claude Code o Codex?

Hace unas semanas, xAI —la empresa de IA de Elon Musk detrás de Grok y vinculada a Twitter/X— lanzó su propio agente de codificación: Grok Build. Si vienes del mundo de Claude Code (Anthropic) o GPT Codex (OpenAI), la idea es la misma: una herramienta de terminal que escribe código por ti. Pero, ¿está a la altura?

Me senté a probarlo de verdad: lo instalé, intenté crear una aplicación completa desde cero y exploré sus características más llamativas (skills, subagentes, múltiples sesiones). En este artículo te cuento qué es, cómo funciona y, sobre todo, si vale la pena pagar la suscripción que cuesta hoy.

TL;DR: La interfaz (TUI) es excelente y está muy bien trabajada. El modelo, en cambio, todavía deja mucho que desear. Por el precio actual, no lo recomiendo como herramienta principal.

¿Qué es Grok Build?

Conviene separar dos cosas que suelen confundirse:

Grok es el modelo inteligente de xAI (el competidor directo de los modelos de OpenAI o Anthropic).
Grok Build es la herramienta —el agente y CLI— que usa ese modelo para escribir código en tu terminal.

Es decir, la relación es la misma que existe entre los modelos de OpenAI y Codex, o entre los de Anthropic y Claude Code. Grok Build es la apuesta de xAI para entrar al mercado de los agentes de codificación que corren directamente desde la línea de comandos.

Por debajo corre un modelo especializado en código (no el Grok general de chat), y la herramienta está disponible para Windows, Linux y Mac, además de funcionar sin problemas en WSL. Eso hace que instalarlo en cualquier entorno sea muy sencillo.

Instalación: cuestión de segundos

La instalación es de lo más fácil. Desde la documentación oficial (la sección Build dentro de la web de xAI) copias el comando de instalación y lo pegas en una terminal —en Windows funciona bien desde PowerShell—.

La instalación toma apenas unos segundos. A partir de ahí puedes lanzarlo de dos formas: con la palabra grok o con su alias corto. Al entrar por primera vez te muestra una pantalla de bienvenida donde debes aceptar los permisos y autorizar que lea tu cuenta. Aceptas, y listo: ya puedes empezar a usarlo.

La interfaz (TUI): lo mejor de la herramienta

Apenas inicias sesión, lo primero que destaca es lo pulida que está la interfaz. Es una TUI (Terminal User Interface), y francamente es de las más cuidadas que he visto:

En la parte superior ves la cantidad de contexto disponible.
Justo debajo puedes cambiar entre modos de trabajo: build para pedir cosas directamente, plan para planificar antes de ejecutar, y always approve para que lo haga todo por sí sola sin pedir confirmación.
Con Control + X accedes a los atajos de teclado.

Y un detalle que me sorprendió: a pesar de ser una herramienta de terminal, puedes seleccionar elementos con el ratón. Puedes navegar con clics y seleccionar partes de la interfaz, algo poco común en este tipo de aplicaciones. Todo responde rápido y se siente fluido.

La prueba real: creando una app de finanzas personales

Para probarlo de verdad creé una carpeta llamada Personal Finance Tracker y lancé grok dentro. Lo primero que me preguntó fue si quería iniciar un nuevo espacio de trabajo o resumir una sesión anterior (con atajos como Control + W, Control + S o Control + Q).

Elegí un nuevo workspace, lo nombré "Finance Tracker", y le pedí:

"Crea una planificación de una web para administrar finanzas personales."

Luego presioné Shift + Tab para cambiar al modo plan.

Algo curioso: Grok busca mucho en la web

Si has usado Grok antes, sabrás que tiende a apoyarse mucho en búsquedas web en lugar de responder solo con el conocimiento del modelo. Pues bien, para armar la planificación hizo exactamente eso: buscó en internet.

Lo interesante es que llegó hasta un repositorio público de GitHub de alguien y me mostró el stack que encontró allí, pidiéndome permiso para hacer el fetch. Es la primera vez que veo a un agente mostrarte así, tal cual, de dónde está sacando la referencia. Otros modelos también toman código de GitHub como referencia, pero Grok te lo enseña abiertamente. Me pareció un detalle interesante.

Tras un par de segundos generó el plan.md, y la interfaz incluso te ofrece una especie de editor con scroll para navegar el plan cómodamente.

El plan estaba bien... la ejecución no tanto

Le dije que continuara con la fase uno. Al terminar, me indicó cómo probar el proyecto. Lo ejecuté y... lo primero que me lanzó fue un error de hidratación de Next.js.

Probándolo varias veces, el patrón se repetía: el modelo genera código incompleto y lanza este tipo de errores por todos lados. No quería corregirlos uno a uno, así que opté por una solución más elegante.

Truco: instalar un skill de Playwright para autocorregir

En lugar de depurar manualmente, instalé un skill que usa el mismo modelo para que intente entrar a la aplicación, detectar problemas y dejarla funcionando por sí solo.

Busqué Playwright en una página de skills que funciona como instalador global. Encontré el Playwright CI, copié el comando y lo lancé desde una terminal ubicada en la carpeta del proyecto.

Aquí un punto a favor enorme de Grok Build: lee los skills de otros agentes. Aunque en ese instalador no aparece Grock listado, puedes instalar el skill a nivel de proyecto y la herramienta lo carga sin problemas. Una vez instalado, escribes / y aparece playwright-ci; le das tap y le pides algo como "comprueba que funcione esta fase".

Dato útil para salir y retomar: Con Control + C (dos veces) terminas la sesión. Para retomarla, el comando es grok --resume, y vuelves justo donde lo dejaste.

A pesar del skill, la app seguía sin despegar. El motivo de fondo: al generar la aplicación, el modelo todavía no tiene mucha idea de cómo conectarla con las herramientas locales.

Características avanzadas que sí me gustaron

Más allá del rendimiento del modelo, la herramienta tiene funciones que vale la pena conocer:

Múltiples sesiones en paralelo

Con el comando /sessions puedes manejar varias sesiones a la vez. Si escribes /new lanzas una nueva sesión (por ejemplo, "crear una página de perfil para la app"), y al volver a /sessions puedes intercambiar entre ellas. Funciona muy parecido a Open Code, y la verdad es que funciona muy bien.

Selección de modelos (limitada)

El comando /model te deja elegir el modelo... pero por ahora solo está Grok Build disponible. No hay muchas opciones para cambiar el modo de trabajo del modelo todavía.

Comando `loop`: el iterador

Tiene un comando loop muy similar a lo que ofrecen otros agentes (como el comando "gold" de algunos, o lo que hace GPT). Le das una tarea y el agente intenta cumplir el objetivo una y otra vez de forma iterativa. Eso sí: ojo con la suscripción, porque este modo consume tokens rápido.

Subagentes

Le pedí: "crea dos subagentes, uno para verificar el código y otro para documentar".

Esperaba que simplemente ejecutara dos instancias en paralelo. En cambio, primero creó una carpeta .agents (o similar) y dentro generó la configuración/perfil de cada subagente en forma de skills: uno llamado "documentar" y otro "verificar código". Tras lanzarlos (con un proceso que tardó unos 5 minutos), aparece un indicador de "subagent running" con un parpadeo morado que señala que la ejecución está en proceso, y efectivamente corren los dos a la par.

En resumen: los subagentes son ejecuciones independientes, cada una con su skill, pero al final es básicamente lanzar dos instancias dentro de la misma sesión. No es algo extremadamente sorprendente, aunque está bien implementado.

Mi veredicto: ¿vale la pena Grok Build?

Después de probarlo a fondo, mi conclusión es clara y tiene dos caras.

La interfaz (TUI) es de lo mejor. Es rápida, está muy bien trabajada, soporta ratón, múltiples sesiones, skills de otros agentes, plugins y subagentes. En ese aspecto, Grok Build luce prometedor.

El modelo, en cambio, todavía le falta muchísimo. En la práctica se siente como los modelos antiguos: esos primeros GPT u Opus en sus versiones iniciales. Genera código incompleto, lanza errores constantes y me costó muchísimo siquiera ejecutar la aplicación de prueba. Es un modelo barato, y se nota.

¿Para quién sí tiene sentido?

Si ya pagas la suscripción de X/Twitter o Grok y quieres "quemar" esos tokens, puedes delegarle tareas pequeñas sin problema.
Si buscas una herramienta seria para proyectos y planificaciones grandes, mi recomendación es ir por una suscripción de GPT (Codex) o Claude (Claude Code).

Probablemente esto mejore con el tiempo, sobre todo a medida que el modelo se integre en otros harness (como Pin Code y similares). De hecho, esta suscripción ya se está añadiendo a muchos agentes de IA, así que es razonable esperar que mejore conforme le den uso.

Pero al día de hoy, siendo honesto: no pienso usar este modelo ni pagarlo. Deja bastante que desear, y he visto modelos chinos que responden incluso mejor. La TUI me encanta; el modelo, no tanto. Habrá que ver cómo evoluciona en los próximos meses.

¿Lo has probado tú? Cuéntame tu experiencia en los comentarios. Y si quieres profundizar en cualquier tema de desarrollo o IA, puedes reservar una asesoría personalizada en fazt.dev.