Caveman: Ahorra Hasta 75% de Tokens en Claude, Cursor y IA | Fazt.dev

Caveman: el skill que reduce hasta un 75% de tokens en tu agente de IA

En estos días, mientras todos buscamos la forma de ahorrar tokens al usar herramientas de IA, vale la pena conocer un skill que está ganando bastante popularidad en GitHub: Caveman. Su propuesta es simple pero efectiva: hacer que Claude (o el agente que uses) hable como cavernícola para ahorrar tokens. Dicho de otra forma, lo fuerza a ser conciso, reduciendo la cantidad de tokens que gasta al responder sin perder precisión técnica.

Aunque a primera vista pueda sonar como algo poco útil, en la práctica este es uno de esos skills que ayuda a que tu suscripción de IA —sea Claude, Codex o cualquier otro agente— te dure un poco más. Y eso, cuando trabajas a diario con estas herramientas, se nota.

En este artículo te explico de qué se trata, cómo instalarlo y en qué casos realmente vale la pena.

¿Qué es Caveman?

Caveman es un skill que puedes añadir a prácticamente cualquier agente de IA de forma sencilla. Lo que hace, de manera resumida, es resumir la salida de las respuestas de los modelos. Según los datos del propio proyecto, esto reduce aproximadamente un 75% de los tokens de salida.

El nombre lo dice todo: "caveman" significa cavernícola, y eso es justamente cómo se espera que responda el agente. En lugar de darte explicaciones largas y elaboradas, te entrega la respuesta al grano.

Un ejemplo lo deja claro. Normalmente, Claude Code podría gastar 69 tokens para responderte algo así:

"La razón de que tu componente React esté re-renderizándose es porque estás creando una nueva referencia de objeto en cada ciclo de renderizado, lo que provoca que React lo detecte como diferente y vuelva a renderizar..."

Una explicación completa que honestamente no está mal, pero que probablemente no leerás entera. Con Caveman, esa misma respuesta se compacta a algo directo:

"Nuevo ref de objeto en cada render. Prop inline = nuevo ref = re-render. Envuelve en useMemo."

Misma solución, mismo nivel técnico, pero con muchos menos tokens. Y como cada uno de esos tokens te lo están cobrando, la idea de Caveman es ayudarte a ahorrar ese dinero.

Otro caso típico: Claude suele responder con frases de cortesía como "¡Claro! Estaré feliz de ayudarte con eso...". Con Caveman, todo eso desaparece. Va directo al bug, te dice dónde está el problema y punto.

¿Para quién es?

Algo importante a tener en cuenta: Caveman está mucho más enfocado en temas técnicos, sobre todo si desarrollas código. No es para todo tipo de uso ni para que al primer "hola" ya respondas en modo cavernícola. Tiene sentido cuando escribes código —que es para lo que se usan principalmente los agentes— y quieres una respuesta directa de qué está fallando.

El beneficio no es solo ahorrar tokens: al ser respuestas más al grano, el agente también responde más rápido.

Las variaciones del skill

Caveman incluye distintos niveles de compresión:

Lite: la forma más básica, ahorra tokens ligeramente quitando relleno.
Full: la versión por defecto, el "modo cavernícola" estándar.
Ultra: aún más puntual y telegráfico.
Wenyan: la más curiosa, usa caracteres del chino clásico para comprimir todavía más la respuesta.

Lo recomendable es instalar el skill típico en su versión por defecto (full) y luego, si quieres, ir probando las demás.

Cómo instalarlo

Hay dos formas de instalar Caveman.

La primera es por línea de comandos. El proyecto ofrece un comando para sistemas Unix (Linux, WSL, Git Bash) y otro para PowerShell en Windows.

La segunda, y la que recomiendo, es usar la página de skills.sh, que hace el proceso mucho más fácil. Desde ahí buscas Caveman, copias el comando, lo pegas en el proyecto donde estés trabajando y das enter. Esto lanza el instalador típico de skills.sh.

A partir de ahí te aparecen las opciones de dónde instalarlo. Por defecto se instala en todos los agentes disponibles, pero puedes elegir uno específico —por ejemplo, Claude Code— o varios. Incluso hay un buscador para encontrar el tuyo. Un detalle: si usas GPT, no necesitas instalarlo por aquí, ya viene incluido.

Después puedes elegir entre instalarlo a nivel de un solo proyecto o de forma global para todos. Mi recomendación es empezar a nivel de proyecto; si te gusta, repites los mismos pasos eligiendo la opción global. Eliges symlink, confirmas con "yes" y listo: ya tienes el skill.

Cómo funciona en la práctica

Una vez instalado, lo pruebas lanzando tu agente. Por ejemplo, en Claude puedes pedirle algo simple como "explícame cómo funciona la autenticación de este proyecto".

Sin Caveman, Claude te dará la explicación completa: te dice dónde está el archivo, las rutas de login y register, que usa JWT, dónde está la variable de entorno, etc. Una respuesta sólida, pero larga.

Para activar el skill solo escribes /caveman y das enter. Verás un mensaje confirmando que ya está listo. A partir de ahí, si pides lo mismo, la respuesta será mucho más compacta: menos líneas, menos tokens, pero con la información que necesitas. Te dice dónde está la ruta, que busca a la persona por correo, que encripta la contraseña, y así sucesivamente.

Si quieres exprimir aún más el ahorro, puedes usar las variaciones. Escribiendo /caveman ultra, por ejemplo, gastas todavía menos tokens. Eso sí, recuerda que el objetivo no es responder dos palabras sin sentido, sino que la respuesta tenga un uso real.

Los números que promete

Según los benchmarks del proyecto, los ahorros son considerables:

Explicar un bug de React: hasta 77% menos tokens.
Configurar una conexión a PostgreSQL: de 2,347 tokens a apenas 380.

Y así con muchas otras tareas técnicas.

Y por si crees que ser más breve significa perder calidad, hay respaldo de investigación: un paper de marzo de 2026 encontró que forzar a los modelos grandes a dar respuestas breves llegó a mejorar su precisión en hasta 26 puntos en ciertos benchmarks. En otras palabras, más palabras no siempre es mejor; a veces, menos texto significa más acierto.

La letra pequeña que conviene entender

Aquí viene la parte importante que muchos pasan por alto. Aunque estos resultados parezcan indicar que vas a ahorrar enormemente en todas tus sesiones, hay que entender cómo funcionan realmente las respuestas en los agentes.

Cuando trabajas con un agente, dispones de un contexto limitado de tokens. Supongamos, como referencia, que tienes 100,000 tokens disponibles (hoy hay modelos con mucho más, hasta un millón, pero usemos esto como ejemplo). De ese total:

Una parte se va en las entradas (lo que incluye el propio agente).
Otra parte la ocupan los mensajes, es decir, el historial del chat.
Otra la consumen los tools o herramientas que trae el agente para leer archivos o comunicarse con otros programas.
Y finalmente está la salida, que es justamente la parte que Caveman optimiza.

Es decir, Caveman comprime únicamente la salida. Y aquí está el detalle: en el momento en que cargas el skill, también estás poblando un poco más la sección de tools. Lo bueno es que, una vez cargado, queda guardado en memoria caché, así que la siguiente vez que el agente responda lo reutiliza. No es exactamente igual de eficiente, pero a largo plazo —mientras el agente siga respondiéndote y el skill ya esté cargado— debería ahorrarte tokens, incluso más que simplemente pedirle al modelo que responda de forma compacta.

Por esa misma limitación, los creadores desarrollaron su propio agente: Caveman Code. Es otro proyecto en un repositorio aparte que funciona como una especie de wrapper sobre los agentes existentes (Codex, Claude, etc.). La idea es que la compresión no actúe solo en la salida, sino a lo largo de todo el agente: desde la entrada y las herramientas hasta la respuesta. Esto reduce mucho más el gasto de tokens en toda la sesión.

El ecosistema de skills

Caveman ya no es un solo skill. A medida que ha ganado popularidad, han ido sumando complementos:

Caveman Commit: resume mucho más los mensajes de commit.
Caveman Review: al revisar código, marca los errores o partes riesgosas sin darte explicaciones extensas, solo los puntos más importantes y resumidos.
Caveman Compress: al terminar tu sesión o chat, puedes lanzarlo para comprimir todo en un archivo markdown, bajo la misma filosofía de texto resumido.
Cave Crew: permite usar subagentes encima de Claude Code, lanzando varios a la vez (un investigator, un builder, etc.).

Conclusión

De forma resumida, Caveman es para quienes buscan ahorrar tokens y trabajan en sesiones bastante largas. Si ese es tu caso, vale mucho la pena probarlo, y luego puedes considerar instalar los skills adicionales según lo que necesites.

La idea central es clara y hasta divertida: why use many token when few token do trick. Tu agente sigue siendo igual de capaz —el cerebro sigue siendo grande—, solo que ahora habla menos.

Si tienes alguna duda o quieres ver algún ejemplo práctico usándolo, déjalo en los comentarios. ¡Nos vemos en el siguiente!