La Economía de los Tokens de IA se Está Colapsando | Fazt.dev

La economía de los tokens está colapsando: por qué tu suscripción de IA va a costar mucho más pronto

Existe una idea que se ha vendido muy bien en los últimos años: que gastar muchos tokens de IA te hace más productivo. Que si tienes tu workflow completamente automatizado, quemando millones de tokens al día, estás "haciendo más", produciendo más software y posicionándote como un developer de la nueva era.

Esa percepción no la tienen solo los desarrolladores individuales. La tienen las empresas. Y justo ahora estamos viendo el resultado de creerla a ciegas: compañías que gastaron presupuestos enormes en herramientas de IA sin producir lo que esperaban. La economía de los tokens, tal como la conocemos, está empezando a romperse.

En este artículo te doy un resumen del estado actual del gasto de tokens en empresas, por qué se está volviendo un problema, y qué significa esto para los que pagamos suscripciones de IA todos los meses.

El espejismo: gastar tokens es igual a productividad

Empecemos con un ejemplo que se hizo viral. Peter Steinberger, conocido en la comunidad de desarrollo, publicó hace un tiempo una captura de su gasto mensual en tokens. En 30 días había consumido cientos de miles de dólares en uso, con un gasto diario cercano a los $20,000. Eso equivale al presupuesto de decenas de ingenieros trabajando en una empresa. Para una sola persona.

El detalle es que alguien en esa posición probablemente tiene acuerdos con los proveedores de modelos, así que es muy posible que no le esté costando nada de su bolsillo. Y ahí está el punto que muchos pasan por alto: que ese flujo de trabajo le funcione a él no significa que te vaya a funcionar a ti. Él no paga ni uno solo de esos tokens; tú sí vas a pagar cada uno. Copiar el patrón de consumo de quien tiene los tokens gratis es la forma más rápida de quemar tu propio presupuesto sin obtener el mismo retorno.

El razonamiento que muchos hacen es: "Sí, gasta un millón en tokens, pero seguro produce diez veces eso en valor". Esa suposición — que más tokens equivale automáticamente a más resultados — es exactamente lo que han creído los CEOs de medio Silicon Valley. Y es la que ahora se está poniendo a prueba.

La promesa rota: los modelos no se abarataron

La justificación para todo este gasto era una predicción optimista. Sam Altman, CEO de OpenAI, lo escribió como una de sus tres observaciones sobre la economía de la IA en su post "Three Observations": el costo de usar un nivel dado de IA cae aproximadamente 10 veces cada 12 meses, y precios más bajos llevan a mucho más uso. Para respaldarlo citaba un dato concreto: el precio por token de GPT-4 a comienzos de 2023 hasta GPT-4o a mediados de 2024 cayó alrededor de 150x. Altman incluso lo comparaba con la Ley de Moore — que duplicaba cada 18 meses — para decir que esto era "increíblemente más fuerte".

El problema es que esa predicción estaba anclada a la era de GPT-4. En la práctica, lo que se abarató fueron los modelos más antiguos a medida que aparecían reemplazos. Los modelos de frontera — los más capaces, los que realmente usas para trabajo serio — no solo no han bajado al ritmo prometido, sino que en varios casos han subido.

Un ejemplo concreto: cuando Google lanzó su nuevo modelo Flash enfocado en código, se esperaba un competidor barato frente a GPT y Claude. Lo que encontraron muchos desarrolladores fue que, primero, no estaba al nivel de la competencia para tareas complejas; y segundo, llegó a costar varias veces más que su predecesor. Y eso siendo el modelo "rápido y barato" de la familia. Si querías el modelo que razona más profundo, el precio escalaba todavía más.

La conclusión incómoda es que escribir código básico con IA hoy cuesta más que hace un año, no menos.

GitHub Copilot deja la tarifa plana: bienvenido el cobro por uso

El cambio más reciente y simbólico viene de GitHub. A partir del 1 de junio de 2026, GitHub Copilot abandona el modelo de suscripción de monto fijo y pasa a facturación basada en uso mediante un sistema de créditos (GitHub AI Credits).

¿Qué significa esto en la práctica? Que ya no hay un plan plano de $10 al mes donde usabas distintos modelos sin pensar. Ahora el consumo se calcula según los tokens — de entrada, de salida y en caché — usando las tarifas de API de cada modelo. La conversión es directa: 1 crédito equivale a $0.01 USD. Las únicas excepciones son el autocompletado de código y las sugerencias de edición, que siguen incluidas.

Lo más revelador es que GitHub lanzó una calculadora para que estimes cuánto gastarías bajo el nuevo modelo. Pero no es una herramienta que abras y veas el resultado al instante: tienes que descargar un reporte CSV de tu propia cuenta, esperar a que se genere de forma asíncrona, te llega por correo, y recién entonces lo cargas para ver tu proyección. Es bastante más engorroso que la calculadora de AWS, por ejemplo.

Muchos desarrolladores se tomaron el trabajo de hacerlo, y los resultados fueron contundentes: quienes pagaban un plan fijo de pocas decenas de dólares al mes proyectaban gastar muchísimo más bajo el esquema de créditos, especialmente si usaban flujos agénticos intensos. El salto de precios es tan grande que, para usuarios pesados, deja de tener sentido pagar una suscripción "plana" cuando de todas formas te van a cobrar por consumo real.

La razón oficial de GitHub es honesta: Copilot ya no es el producto que era hace un año. Ahora ejecuta workflows agénticos complejos que consumen muchísimo más cómputo. Y alguien tiene que pagar ese cómputo.

El caso Uber: un presupuesto anual quemado en cuatro meses

Si el ejemplo de Copilot te parece teórico, el de Uber lo aterriza. Y es el caso más claro de hacia dónde va todo esto a escala empresarial.

Uber desplegó Claude Code a unos 5,000 ingenieros a finales de 2025. La adopción fue explosiva: el uso de funciones de coding agéntico saltó de alrededor del 32% en febrero a un 84% en marzo de 2026. Para la primavera, cerca del 95% de los ingenieros de Uber usaban herramientas de IA cada mes, y aproximadamente el 70% del código que se commiteaba ya pasaba por estas herramientas.

El problema llegó con la factura. El costo mensual por ingeniero se disparó a un rango de $500 a $2,000, muy por encima de lo proyectado. El CTO, Praveen Neppalli Naga, confirmó que la empresa agotó todo su presupuesto de IA para 2026 a mediados de abril — ni siquiera llegaron a la mitad del año. El propio CTO mencionó haber gastado $1,200 en una sola sesión de demostración de dos horas.

Pero el dato más importante es lo que dijo el COO de Uber, Andrew Macdonald: no se puede trazar una línea clara entre todo ese consumo de tokens y mejoras medibles en el producto que llega al usuario final. En sus palabras, esa conexión "todavía no está ahí". Tienes adopción casi total, un gasto enorme, y aún no puedes señalar el ingreso o la mejora de producto que lo justifique.

Uber no está solo. Microsoft y Duolingo han llegado al mismo lugar incómodo: tasas altísimas de adopción de IA que no se traducen automáticamente en un retorno de inversión legible. De hecho, Microsoft reportadamente empezó a cancelar gran parte de sus licencias directas de Claude Code para mover ingenieros hacia opciones más controladas.

"Tokenmaxxing": cuando gastar tokens se vuelve una competencia

Aquí es donde la cosa se vuelve casi absurda. En Meta, un empleado construyó un leaderboard interno llamado "Claudeonomics" que rankeaba a más de 85,000 empleados según cuántos tokens de IA consumían. Los que más gastaban ganaban títulos como "Token Legend", "Session Immortal", "Cache Wizard" o "Model Connoisseur".

¿El resultado? En 30 días, los empleados de Meta quemaron más de 60 billones de tokens (60 trillions en escala anglosajona). A precios públicos de API, eso representaría una cifra del orden de cientos de millones a casi mil millones de dólares — aunque Meta seguramente compra con descuento, el orden de magnitud asusta. Y lo peor: se reportó que algunos empleados dejaban agentes de IA corriendo en vacío solo para inflar sus números y subir en el ranking.

El leaderboard se cerró pocos días después de que la noticia se hiciera pública, pero el fenómeno tiene nombre: tokenmaxxing. La idea de que el consumo de tokens es, en sí mismo, una medida de productividad y de qué tan "AI-native" eres.

Y no es exclusivo de Meta. En OpenAI también existe un leaderboard interno donde un usuario top llegó a procesar cientos de miles de millones de tokens en muy poco tiempo. Empresas como Anthropic han tenido casos parecidos de usuarios internos con gastos de decenas de miles de dólares mensuales solo en tokens. Aquí ya no hablamos de unidades abstractas: esto es dinero real.

Como lo resumió un ingeniero con sentido común: medir el consumo de tokens como proxy de productividad es como juzgar a un camionero por cuánta gasolina quema.

El cómputo es más caro que contratar gente (a esta escala)

Detrás de toda esta fiebre estaba una premisa que parecía obvia: las herramientas de IA son más baratas que contratar personas. Y para tareas puntuales puede ser cierto. Pero a gran escala la ecuación cambia, y lo dicen desde dentro de la propia industria del hardware.

Bryan Catanzaro, vicepresidente de applied deep learning en Nvidia — es decir, la empresa que vende el cómputo —, lo resumió sin rodeos: para su equipo, el costo del cómputo está muy por encima del costo de los empleados. Que esto lo diga alguien de Nvidia es revelador, porque es justamente quien más se beneficia de que gastes en GPUs.

Y hay datos que lo respaldan. Un estudio del MIT de 2024 encontró que la automatización con IA solo era económicamente viable en cerca del 23% de los roles donde la visión es parte central del trabajo; en el 77% restante seguía siendo más barato que lo hiciera un humano. Mientras tanto, las Big Tech han anunciado cientos de miles de millones de dólares en capex de IA este año — del orden de $740 mil millones según Morgan Stanley, un salto enorme frente al año anterior —, sin evidencia clara y generalizada de que la IA esté aumentando la productividad de forma proporcional.

Hay un detalle clave para nosotros como usuarios: parte de la razón por la que las empresas de IA están reconsiderando sus precios es que el modelo de suscripción plana les hace perder dinero con los usuarios pesados. Una tarifa fija no alcanza a cubrir los costos operativos de alguien que quema tokens sin parar. De ahí que el movimiento natural — el que ya hizo GitHub Copilot — sea pasar de la suscripción fija al cobro por uso. Esa transición no es un capricho: es la consecuencia directa de que el cómputo cuesta lo que cuesta.

Lo que estamos viendo, entonces, es un cambio de modelo de negocio: se pasa de contratar desarrolladores y construir proyectos, a tener un streaming constante de gasto en tokens. Es dinero que fluye como el agua, todo el tiempo, sin parar. Empleados más herramientas automatizadas más agentes en paralelo: todo eso es consumo de tokens. Y como la consigna actual es "automatízalo todo con IA", la tendencia no apunta a bajar.

El gran error fue creer que dar rienda suelta al gasto de tokens iba a producir, casi por arte de magia, una cantidad enorme de software útil y rentable. Sumando todo el gasto desde aproximadamente 2023 hasta hoy, con cada modelo de frontera siendo más caro que el anterior, muchas empresas recién ahora están midiendo qué tan productivas fueron realmente. Y los números no siempre cierran.

Conviene matizar una cosa, eso sí: este desbalance puede ser un fenómeno de corto plazo. Analistas como Gartner proyectan que hacer inferencia sobre modelos muy grandes podría costar más de 90% menos en los próximos años. Si eso se cumple, la ecuación volvería a inclinarse. Pero esa es una promesa a futuro; hoy, en la vida real, el cómputo a escala sigue saliendo caro.

¿Y los modelos chinos y de código abierto?

Una pregunta natural: ¿qué pasa con los modelos chinos o las alternativas open source frente a Claude, GPT y compañía?

De momento, modelos como DeepSeek o Kimi no tienen ese problema de costos: son mucho más baratos, en varios casos abiertos, y mucha gente los usa sin inconvenientes precisamente por el precio. Parte de eso se debe a que operan bajo otras condiciones y regulaciones, sin los mismos acuerdos que tienen empresas como OpenAI o Anthropic.

Pero hay que ser realistas en dos puntos. Primero, todavía no están exactamente al mismo nivel que los modelos de frontera para las tareas más complejas, aunque algunos se acercan. Y segundo, no hay garantía de que se mantengan baratos para siempre: una vez que los pioneros consoliden el cobro por uso, es probable que el resto del mercado ajuste también. La diferencia es que estos modelos sí compiten con precios más bajos y optimización agresiva, así que al menos representan una alternativa real a futuro — incluyendo la posibilidad de correr modelos localmente.

¿Qué puedes hacer tú como developer?

Siendo honestos: a corto plazo, no hay mucho que se pueda hacer para frenar la subida de precios. Las suscripciones se van a ir actualizando, y cuando eso pase, el cambio se va a volver mucho más obvio en tu bolsillo. Pero sí hay cosas dentro de tu control:

Aprende cómo funcionan los sistemas, no solo la sintaxis. Entender la arquitectura por debajo te vuelve mucho menos dependiente de la IA para tareas básicas. Esa es la mejor protección a largo plazo.
No uses IA para lo que un script resuelve. Veo a muchos developers pidiéndole a la IA que escriba comandos básicos para iterar una y otra vez, cuando un simple script lo haría gratis y al instante. Cada una de esas iteraciones cuesta tokens.
Mide tu gasto real, no tu sensación de productividad. Cargar más tokens no significa producir más. Antes de asumir que tu workflow automatizado te hace rentable, revisa los números.
Evalúa alternativas más baratas para tareas que no las necesitan. No todo requiere el modelo más caro. Reservar los modelos de frontera para lo complejo y usar opciones económicas para lo simple puede recortar muchísimo el gasto.

En resumen

La narrativa de "más tokens = más productividad" se está desmoronando frente a los números. Uber quemó su presupuesto anual en cuatro meses sin poder justificar el retorno. Meta tuvo a 85,000 empleados compitiendo por gastar más, hasta el punto de dejar agentes corriendo en vacío. GitHub Copilot abandona la tarifa plana y pasa al cobro por uso. Y los modelos de frontera, lejos de abaratarse como se prometió, en varios casos se encarecieron.

Esto no significa que la IA no sirva — sirve, y mucho. Significa que la fase de gasto sin medir está llegando a su fin, y que la próxima etapa va a premiar a quienes entienden cómo funcionan los sistemas por dentro y usan estas herramientas con criterio, no por inercia.

La pregunta interesante no es cuántos tokens gastas. Es cuánto valor real produces por cada uno.

¿Tienes una idea de cómo podría resolverse este problema de la economía de tokens? Modelos locales, nuevas arquitecturas de razonamiento, optimización... el debate está abierto. Déjamelo en los comentarios.