Cómo DeepSeek 4 humilló a Claude Opus 4.7 con Command Code | Fazt.dev

Command Code: cómo un harness hace que DeepSeek V4 supere a Opus 4.7

Hace poco me topé con un post que tenía un título bastante llamativo: cómo habían logrado que DeepSeek pudiera ser mucho mejor que Opus 4.7. Suena a clickbait, lo sé. Pero detrás de ese título hay una idea que vale la pena entender, porque resume bastante bien hacia dónde está yendo el desarrollo con IA estos días.

La clave no está en el modelo. Está en el harness.

El verdadero cuello de botella no es el modelo, es la herramienta

Durante mucho tiempo dimos por sentado que los modelos abiertos —Kimi, Qwen, DeepSeek y compañía— eran simplemente "peores" que los comerciales como Claude o GPT. Y la explicación que todos aceptábamos era que el modelo abierto no estaba a la altura.

Pero lo que se está viendo últimamente es que eso no es del todo cierto. Cuando un modelo intenta resolver código, muchas veces el problema no es que razone mal, sino que responde con un formateo incorrecto o no llama a la herramienta adecuada. Y eso, en la práctica, hace que parezca peor de lo que realmente es.

Ahí entra el concepto de harness engineering: en lugar de mejorar la IA en sí, mejoras la herramienta que la IA utiliza para trabajar. Optimizas la forma en la que el modelo llama funciones internas, edita archivos, ejecuta comandos. Y resulta que ese pequeño cambio cierra gran parte de la brecha entre modelos abiertos y comerciales.

Con esa idea, Command Code logró que DeepSeek versión 4 rindiera hasta 10 veces mejor en sus evaluaciones internas frente a Opus 4.7. No tocaron el modelo. Tocaron el harness.

Qué es Command Code

Command Code es un agente de terminal, muy parecido a lo que ya conocemos con Claude Code o GPT Codex. La diferencia es que este está pensado específicamente para sacarle el máximo a los modelos abiertos: Kimi, Qwen, DeepSeek y similares.

Probándolo me encontré con varias características que lo hacen distinto:

Algo llamado taste, que es lo más interesante de toda la herramienta (ya lo veremos en detalle).
Memoria entre sesiones.
Ejecución multiagente.
Soporte para los estándares actuales: skills, MCPs y comandos personalizados.

Y un detalle que llama la atención: al registrarte te dan créditos que equivalen a unos $40 de uso en modelos como DeepSeek, Nemotron, MiniMax y muchos otros.

Instalación

Instalarlo es directo. Vas al sitio de Command Code, copias el comando de instalación y lo pegas en tu terminal:

npm i -g command-code

Una vez instalado, ejecutas comm code (o también funciona cmd). Te va a pedir autenticarte —puedes hacerlo con tu cuenta de GitHub—, autorizas y listo. Ya estás dentro.

Desde ahí puedes preguntar cualquier cosa y el modelo responde. Pero antes de empezar conviene revisar qué modelo tienes activo.

Eligiendo el modelo

Si escribes /model y das enter, te aparece una lista bastante amplia de modelos para elegir. Hay opciones de Anthropic, OpenAI y Google, pero los que probablemente más te interesen son los modelos abiertos, principalmente porque ahí obtienes mucho más uso y porque el harness se encarga de que respondan casi a la par que los comerciales.

A veces incluso encuentras modelos gratuitos rotando en la lista. Cuando hice esta prueba, Qwen 3.7 Max estaba libre. En mi caso quería probar DeepSeek versión 4 Flash en su variante Max, para armar un proyecto completo.

La prueba: una app full-stack tipo RAG

Para ponerlo a prueba de verdad, le pedí algo concreto: un plan de implementación para una aplicación full-stack llamada "chats". La idea era una web donde pudieras cargar documentos (markdowns, por ejemplo) y luego conversar con ellos mediante IA. El modelo lee el documento, lo convierte en embeddings, lo toma como contexto y responde a partir de esa información. En esencia, un RAG pequeño.

Lo interesante es que al escribir "crea un plan de implementación", la herramienta entró sola en modo plan, sin que se lo pidiera explícitamente. Detectó la intención. Me preguntó si quería confirmar, le dije que sí, y Command Code guardó esa implementación dentro de su carpeta plans.

Después me preguntó si quería que implementara la aplicación. Le di que sí y activé el autoaccept, que es para que acepte por sí mismo los comandos típicos de creación del proyecto.

El resultado: un paso a paso de cinco fases, con un resumen de todo lo que construyó. Llegó a crear hasta su propia librería interna.

Para ejecutarlo solo necesitaba una API key de OpenAI. La generé en el panel de OpenAI (sección Platform → API Keys), se la pasé al agente diciéndole "añade esto al .env" y le pedí que ejecutara el proyecto.

Y funcionó al primer intento. Una interfaz parecida a ChatGPT, pero con opción de subir archivos. Arrastré un par de documentos en markdown —un artículo sobre OpenClaw y otro sobre Hermes— y le pregunté de qué trataban. Identificó correctamente ambos. Todo esto con un modelo abierto.

Iterando: autenticación y base de datos

A partir de ahí seguí pidiendo cosas, que es lo normal en cualquier proyecto real. Le pedí agregar autenticación con correo y contraseña, y para no depender de una base de datos instalada localmente, le indiqué que usara SQLite con Drizzle como ORM.

Estas son herramientas que uno pide constantemente al crear proyectos. Y aquí es donde aparece la palabra clave de toda la herramienta: taste.

El login y register quedaron listos. Probé con datos de prueba, creé una cuenta, obtuve un perfil, y desde ahí ya podía crear múltiples cuentas dentro del mismo proyecto.

Algo que también noté: cuando elaboras una planificación, a veces te hace preguntas de diseño. Por ejemplo, al pedirle separar la app en una API, me preguntó si quería un proceso separado, dónde guardarlo, y luego me mostró un review similar al de otros agentes como Claude Code. La diferencia es que aquí estaba usando un modelo mucho más barato.

Taste: el agente que aprende cómo programas tú

Esta es la característica que realmente diferencia a Command Code.

Cuando abres una sesión nueva en un proyecto, a veces ves una carga llamada taste. Lo que hace es organizar las sesiones que ya tuviste con Command Code y, a partir de ahí, extraer tus preferencias sobre cómo escribes código y qué herramientas usas. En otras palabras, taste es la forma en la que tú típicamente construyes proyectos, y Command Code lo aprende.

En la terminal tienes un comando taste que te muestra esta función activa. De forma automática, a medida que vas pidiendo cosas, Command Code detecta esas preferencias y las va guardando cuando realmente las necesita.

Mientras escribes prompts, en la parte inferior aparece un texto que dice "taste": son las preferencias que la herramienta va aprendiendo de ti. Y si revisas el proyecto, vas a encontrar una carpeta llamada .command-code con dos cosas:

plans: las planificaciones que pediste.
taste: un archivo que la herramienta escribe sola, guardando tus preferencias a medida que conversas.

Un ejemplo concreto: yo siempre uso pnpm para instalar dependencias y ejecutar scripts. La herramienta lo anotó por su cuenta con algo así como "voy a registrar esto, hay un 70% de confianza de que siempre será una preferencia".

Y va más allá de los gestores de paquetes. Como taste también abarca decisiones de diseño, le dije: "reescribe la API, siempre prefiero Hono sobre Express". Al ser una preferencia de diseño que implica escribir código, lo aprendió. En el archivo apareció una entrada api_framework que decía "siempre usa Hono sobre Express, confianza 0.85".

La idea es que tú no toques nada de esto manualmente. A medida que conversas con tus proyectos, esas preferencias se van guardando solas. Puedes seguir agregando reglas naturalmente: "siempre usa Zod para validar endpoints", "siempre creo una ruta health en la API". Y el taste va creciendo.

Lo genial viene la próxima vez que importas el proyecto: el agente ya no asume cosas al azar, sino que respeta las preferencias que tú elegiste.

Tu código se queda en tu máquina

Un punto importante: todas estas preferencias viven únicamente en tu computadora. Command Code no usa tu información personal como datos de entrenamiento. Todo lo que haces se queda en tu propio equipo.

Compartir tu taste con el equipo

Desde tu perfil hay una pestaña llamada Taste, que es una especie de registro donde puedes compartir estas preferencias.

Para guardarlas, copias el comando que te da y le añades --all para que suba todas las preferencias de golpe:

npx taste push --all

Esto almacena tu archivo de taste en un repositorio bajo tu usuario. Si refrescas la página web, vas a ver un paquete nuevo con tu configuración guardada.

¿Y para qué sirve esto? Imagina que entras a un proyecto que no usa Command Code, pero un compañero sí lo usó y ya tiene sus preferencias definidas. Tú puedes hacer el proceso inverso:

npx taste pull

Esto trae la carpeta .command-code con el archivo de taste incluido. Las preferencias no se pierden: es una forma de guardar lo que ya conversaste y seguir trabajando desde ahí sin empezar de cero.

Planes y precios

Para acceder a Command Code tienes un plan de $1 al mes, que te da el equivalente a unos $40 de uso en modelos abiertos como DeepSeek, Nemotron, Qwen, MiniMax y otros que van surgiendo (como MiMo V2.5, el nuevo modelo de Xiaomi).

Un detalle a favor: Command Code a veces regala créditos cuando sale un modelo nuevo. En mi caso estaba usando MiniMax M3 en su versión gratuita. Vale la pena estar atento porque así ahorras uso.

Si vas a usarlo bastante, te recomiendo el plan Pro: por unos $15 obtienes alrededor de $120 de uso, lo que significa más acceso a los modelos abiertos y más peticiones para trabajar. Y si desarrollas muchas aplicaciones, hay planes superiores de $100 y $200 que dan 10x o hasta 20x más uso, en línea con lo que ofrecen otros agentes.

Algo adicional que conviene saber: también se puede usar vía API. Cargas tus créditos y accedes tanto a modelos abiertos como a modelos de GPT y Claude.

Conclusión

Command Code es una herramienta muy simple de usar. En el fondo es un harness enfocado en modelos abiertos, pero optimizado para que ahorres tokens, en el sentido de que el modelo responde exactamente lo que quieres sin dar vueltas.

Y esa característica de taste hace que, a medida que vas pidiendo cosas, el modelo se adapte a ti. No te tira cualquier sugerencia genérica, sino que elige lo que tú realmente sueles usar.

Lo más impresionante es darte cuenta de cuánto se puede lograr con un modelo abierto cuando la herramienta que lo envuelve está bien construida. El harness importa, y mucho.

Puedes probar Command Code desde aquí. Y si tienes dudas o quieres saber qué más se puede hacer con este harness, déjalo en los comentarios. También puedes reservar asesorías personalizadas en fazt.dev. Nos vemos en el próximo video.