Kimi K2.7 Code: El Agente BARATO que Crea Apps Completas (Swarm + Open Source) | Fazt.dev

Kimi K2.7 Code: el modelo open source para tareas largas de código (y a bajo costo)

Hoy en día tenemos muchísimos modelos de IA enfocados en escritura de código: Claude, GPT y un montón más. El problema es que, con las tendencias actuales de lanzar múltiples subagentes o meter una tarea en un loop, esas suscripciones se vuelven caras rápido. No todo el mundo se puede dar el lujo de gastar tanto en tokens.

Por eso quiero hablarte de Kimi K2.7 Code, el último modelo de Kimi pensado justamente para eso: ejecutar tareas largas, enfocadas en código, y sobre todo a bajo costo. Es un modelo que tenía pendiente desde hace tiempo, así que este mes lo voy a probar mucho más a fondo, tanto en herramientas de agentes de código como en asistentes de IA al estilo de mi setup personal (Hermes).

En este artículo te muestro de qué se trata, cómo lo puedes usar en tus herramientas (OpenCode, VS Code) y por qué, siendo uno de los modelos más baratos del momento y además open source, se vuelve una opción muy interesante para explotar características como los subagentes o, como Kimi le llama, el swarm.

¿Qué es Kimi K2.7 Code?

Es la última versión del modelo de Kimi, enfocada en escritura de código y en tareas agénticas. Su verdadera fortaleza está en las tareas de ejecución larga o cuando tienes un volumen muy grande de tareas.

Hablamos de los famosos loops que todo el mundo está tratando de ejecutar ahora mismo, pero que con modelos caros muchas veces no puedes terminar porque el costo se dispara. Aquí tienes un modelo mucho más barato que escribe código bien y que te deja correr esos loops una y otra vez, porque te da muchos más tokens para trabajar.

Y va más allá: si tienes mucho volumen de tareas o armaste una planificación enorme, Kimi tiene ese swarm que permite lanzar múltiples subagentes y avanzar una gran cantidad de tareas en paralelo. Esto no se limita a código: también tienen una plataforma donde, con tu suscripción, puedes lanzar swarms para hacer investigación o delegar tareas a Kimi en la nube. Por ejemplo, le puedes pedir que investigue técnicas RAG y lanza varios subagentes buscando en múltiples sitios a la vez.

Open source y con menos gasto de tokens

Es un modelo open source: tienes el código y los pesos en Hugging Face. La empresa que lo desarrolla, Moonshot AI, tiene su cuenta ahí, y es donde está toda la documentación del modelo.

Lo más relevante de esta versión es que mejora el gasto de tokens en un 30% gracias a un thinking más eficiente. Los modelos suelen hacer un esfuerzo de razonamiento extra antes de responder (eso es el "think"). En Kimi K2.7 Code ese esfuerzo gasta muchos menos tokens, lo cual encaja perfecto con la idea de que es un modelo barato.

Arquitectura: un MoE de 1 trillón de parámetros

Como dato técnico, es un modelo MoE (Mixture-of-Experts). Esto significa que no activa todos sus pesos en cada token: solo activa 32 mil millones de parámetros activos, aunque el modelo completo es de 1 trillón de parámetros. Esa es la razón por la que puede ser tan capaz y, a la vez, eficiente en costo.

Nota sobre despliegue local: el repositorio en Hugging Face pesa alrededor de 595 GB y necesitas GPU(s) con bastante VRAM. No es un modelo de laptop; piénsalo como un target de despliegue server-class (vLLM, SGLang o KTransformers) o, lo más práctico para la mayoría, accederlo vía suscripción o API.

Precio: ¿por qué importa tanto?

Si miramos el precio en la API de Kimi, el millón de tokens de entrada ronda los $0.16 y la salida está alrededor de $4. Es de los modelos más baratos del momento, y esa es justamente su carta fuerte: darte volumen de trabajo a bajo costo.

En cuanto a benchmarks, la propia Moonshot AI comparó Kimi K2.7 Code contra Opus 4.8 (extra high) y GPT-5.5 (extra high). Y seamos honestos: no está a la par de esos modelos, está por detrás. Pero recuerda que la meta de este modelo no es ganar benchmarks de generación de código puro, sino darte volumen a bajo costo para tareas de código y agénticas. Para eso funciona bastante bien.

Ten en cuenta que estas mediciones son first-party (reportadas por la propia Moonshot), no de un leaderboard independiente. Tómalas como referencia, no como verdad absoluta.

Manos a la obra: instalar Kimi Code

En este artículo no voy a usar la API, sino Kimi Code, el agente oficial de Moonshot. Para quien nunca ha trabajado con un programa así, es el equivalente a GPT Codex o Claude Code.

Los planes

Los planes empiezan desde $19 mensuales, con cuotas que se reinician semanalmente y que puedes usar desde distintos dispositivos y herramientas. A medida que subes de plan, te dan mucho más uso semanal y aumentan la capacidad para lanzar subagentes o hacer loops.

El plan recomendado para la mayoría es el de $39: con eso puedes hacer prácticamente cualquier tipo de desarrollo.
En mi caso, como le voy a dar un uso intensivo, voy con el plan de $99 (Allegro).
Si lo adquieres anualmente, obtienes descuento.

Instalación

Una vez con la cuenta, copias el comando de instalación (¡ojo con elegir tu sistema operativo!) y lo pegas en una terminal. Si después de instalar el comando kimi --version te da error, basta con cerrar y abrir la terminal de nuevo.

Luego ejecutas kimi para lanzar Kimi Code. Verás que el modelo preseleccionado es Kimi K2.7 Code. Antes de usarlo, autentícate con /login y elige la opción más sencilla (Kimi Code). Esto abre una página donde, además, puedes ver tus métricas de gasto e incluso acceder al programa beta con modelos en desarrollo.

Probando el modelo en la práctica

Prueba 1: landing page

Lo primero que testeé fue crear un landing page para una web de venta de ropa y accesorios. Como todo agente, te pide aprobar comandos. Tienes varias opciones:

Aprobar uno a uno.
Shift + Tab para cambiar de modo de trabajo.
/yolo para activar el yolo mode y que ejecute libremente (los comandos no riesgosos los corre solo).

Algo interesante: Kimi detecta proyectos que ya tienes en el escritorio y te da opciones. Yo le pedí crear desde cero para ver el modelo trabajando limpio.

El resultado: un HTML con un hero animado, imágenes de stock, scrolls y consideraciones básicas de diseño. Para ser la primera iteración, nada mal.

Prueba 2: un juego 3D al estilo Mario Kart

Con /new inicié sesión nueva y pedí: "Crea un juego en 3D al estilo Mario Kart usando three.js." Aquí el modelo ejecuta su thinking antes de trabajar, lo que ayuda en tareas complejas. (Por cierto, abajo puedes ver el contexto disponible: alrededor de 200,000 tokens — el modelo soporta 256K.)

En unos 3 minutos generó la lógica básica del juego. Sin colisiones todavía, claro, pero es la primera iteración y a partir de ahí puedes seguir iterando.

Prueba 3: chat en tiempo real con login

Con /new otra vez, pedí: "Crea un chat en tiempo real con Express en el backend y React con Vite en el frontend; permite login y registro con correo."

Generó backend y frontend, con registro por correo y contraseña. Probé con dos usuarios distintos y funcionó a la primera: un lado se entera de lo que el otro escribe en tiempo real. Aplicación funcional de un solo prompt.

Skills: testeo automatizado con Playwright

Kimi Code soporta skills. Por ejemplo, puedes instalar el skill de Playwright copiando su comando en la carpeta del proyecto; esto lanza un instalador (Kimi ya está soportado por defecto porque lee la carpeta agents/skills).

Cargué el skill de Playwright y le dije: "Testea el envío y recepción de mensajes del chat, pero antes crea dos usuarios nuevos. Lanza dos navegadores con Playwright CLI." Un tip extra que recomiendo: añadir usa el modo --headed para que realmente abra el navegador de forma visual (por defecto Playwright CLI corre headless).

El resultado fue ver dos navegadores abriéndose, registrándose cada usuario y los agentes chateando entre sí, intercambiando mensajes muy rápido. Una buena muestra de tareas agénticas funcionando bien.

Múltiples instancias y agentes en paralelo

Esto también lo puedes usar desde la terminal de VS Code, lanzando múltiples instancias: en una terminal le dices "implementa el dark mode", abres otra y le dices "implementa el forgot password". Así vas lanzando varios agentes, cada uno en su tarea. (Recuerda /yolo para que avancen sin pedir aprobación constante.)

La extensión de VS Code

En la web de Kimi Code, dentro de la sección IDE, hay un botón para instalar la extensión de VS Code ("Kimi Code"). Una vez instalada y autenticada (Sign in with Kimi account), tienes una interfaz mucho más cómoda integrada en el editor.

Puedes arrastrar el panel hacia la derecha para tener Kimi a un lado y el explorador de archivos al otro. Desde aquí también habilitas varios modos de trabajo, incluyendo el modo Thinking y el modo Plan.

El modo Plan

El modo Plan primero arma una planificación y solo empieza a ejecutar cuando tú la revisas y apruebas. Le pedí: "Permite cargar archivos como imágenes, audio y video, e implementa historias al estilo de WhatsApp."

Primero explora cómo están los archivos del proyecto, te da un resumen de cómo funciona y recién después propone los cambios (almacenamiento local, manejo de archivos en el backend, etc.) en formato Markdown. La planificación que logra es bastante extensa, y una vez aprobada empieza a aplicar los cambios.

Para no estar aprobando todo el tiempo en la extensión, ve al ícono de tuerca → General Config → busca Yolo y márcalo.

El resultado funcionó: pude subir un estado con imagen dentro del chat. De ahí en adelante se sigue mejorando.

Conectarlo a tus propias herramientas (OpenCode + API)

Si quieres usar Kimi con OpenCode, otro editor o cualquier herramienta enfocada en código, tienes dos caminos: a través de tu suscripción o a través de una API.

Para la API: en tu página de perfil, debajo de las métricas de gasto, hay una sección API keys. Le das a Create API key, le pones un nombre (por ejemplo "opencode") y copias la llave.

En OpenCode puedes ejecutar /connect, buscar Kimi (aparece como "Kimi for coding") y pegar tu llave. Con eso ya tienes acceso a los modelos de Kimi, incluyendo Kimi K2.7 Code.

Algo potente de combinar Kimi con OpenCode: puedes lanzar múltiples sesiones en paralelo. Por ejemplo, mientras una sesión trabaja en una tarea, abres otra (/sessions) y le pides "mejora completamente la UI de todas las páginas" cargando un skill de diseño de interfaz. Así tienes dos tareas avanzando a la par, con cualquier herramienta.

Swarm: hasta 300 subagentes en paralelo

Bajo la misma suscripción también puedes usar el chat de Kimi y su modo Swarm. Le pides algo como "Investiga técnicas RAG actuales en el 2026" y tienes la opción de acceder a un computador en la nube donde Kimi ejecuta agentes.

Lo interesante del swarm es que puede estar conformado por hasta 300 subagentes en paralelo. Para tareas muy largas y complejas, este recurso (incluido en tu suscripción) es enorme: lanzas múltiples agentes que hacen exploración amplia de forma individual y paralela.

El swarm también está disponible desde la consola. Por ejemplo, con el modo activado le di la tarea: "Crea documentación, crea tests de backend y crea una página de perfil en el frontend." Son tres tareas independientes, y lanza un swarm con tres secciones avanzando cada una a la par. Esto es posible en otros modelos, pero recuerda que lanzar tantos agentes es muy costoso — y aquí está justo el punto: el costo por token de Kimi es mucho menor.

También existe el comando goal, donde le das un objetivo y el modelo itera múltiples veces hasta lograrlo. Es prácticamente "pedir y esperar".

Visión: también entiende imágenes

Kimi K2.7 Code soporta visión. Puedes pasarle una sección de una web o una imagen cualquiera y la entiende. Por ejemplo, tomé una captura y le dije que colocara iconos en cierta parte, y procesó la imagen para hacer la actualización. Útil para frontend, depurar problemas visuales o trabajar a partir de capturas y mockups.

Conclusión: ¿vale la pena?

Seamos claros: Kimi K2.7 Code no es un reemplazo de Claude. En la práctica no se parece tanto a lo que obtienes con Claude Opus (extra high) o GPT-5.5 (extra high). Pero para muchas tareas no necesitas ese grado de esfuerzo.

Este modelo brilla cuando:

Tienes que ejecutar tareas muy largas.
Manejas un volumen muy alto de tareas.
Quieres delegar a un agente dentro de un loop por un largo periodo.
Necesitas subagentes / swarm sin que el costo se dispare.
Quieres aprovechar visión para trabajar con imágenes.

El combo que recomiendo

Lo ideal es combinarlo con un modelo más fuerte para el planning. Por ejemplo: usa Claude para planear, y todas las tareas de esa planificación las delegas a Kimi para ejecutar. Con ese combo ahorras muchísimos tokens y puedes elaborar una enorme cantidad de tareas a un costo menor.

Aunque, si prefieres, también puedes usar Kimi para todo: sus herramientas ya tienen modo de planificación, swarm, goals y más. Apenas vimos la superficie.

Y como se puede acceder también vía API, lo puedes integrar en otros agentes (OpenCode, Hermes, etc.). Es una de las razones por las que planeo usar bastante esta suscripción.

¿Tienes alguna duda o sugerencia? Déjamela en los comentarios del video. Y si quieres asesorías personalizadas sobre cualquier tema, puedes reservar en fazt.dev.