🔑 APIs de IA Gratis para Desarrolladores: Prueba Nemotron, Llama y Qwen Sin Pagar | Fazt.dev

Los mejores proveedores de modelos de IA gratuitos para programar (2026)

Cuando se habla de modelos de IA, casi todo el mundo piensa en una suscripción mensual. Pero si lo único que quieres es probar modelos, ver cómo se comportan dentro de un agente de código y experimentar sin gastar dinero, existen varios proveedores que regalan acceso gratuito a sus APIs.

En este artículo te listo una serie de plataformas donde puedes registrarte, generar una API key y usarla con herramientas como OpenCode para probar modelos abiertos. Desde ya te lo aviso: no van extremadamente rápido, a veces están saturados y la latencia puede ser alta, pero no cuestan nada y para aprender o practicar pueden serte muy útiles. Al final te dejo un repositorio para que encuentres todavía más recursos.

Cómo funciona en la práctica

El flujo es casi siempre el mismo, sin importar el proveedor:

Te creas una cuenta en la plataforma.
Generas una API key (o token) en la sección de gestión de claves.
En tu herramienta (OpenCode, Cursor, VS Code, etc.) buscas el proveedor entre los disponibles, pegas la clave y listo.
Cambias de modelo cuando quieras. En OpenCode, por ejemplo, usas /models para intercambiar entre todos los modelos que tengas configurados y ver cuál responde mejor o cuál está disponible en ese momento.

La gran ventaja de OpenCode es que puedes conectar varios de estos proveedores a la vez e ir alternando entre ellos según la disponibilidad.

OpenRouter

OpenRouter es la plataforma más popular para acceder a distintas APIs de IA. Cuando sale un modelo nuevo, normalmente OpenRouter ya lo soporta — de hecho, varias empresas le entregan sus APIs incluso antes del lanzamiento público. En la sección de Models encontrarás una lista enorme de modelos, tanto abiertos como cerrados, cada uno con un resumen de qué hace y qué empresa está detrás.

Usarlo es muy sencillo: entras a tu cuenta, vas a Manage Keys, creas una nueva API key y la pegas en tu herramienta favorita buscando "OpenRouter" entre los proveedores.

Un truco útil: en lugar de elegir un modelo específico, puedes buscar el Free Model Router del propio OpenRouter. Este enruta automáticamente hacia cualquier modelo gratuito que esté disponible en ese momento — es como ir al azar, pero te garantiza una respuesta de alguna IA abierta (Kimi, GLM, o el que toque). Es algo lento, pero no cuesta absolutamente nada.

Límites del plan gratuito: 20 peticiones/minuto y 50 peticiones/día. Si haces un topup único de $10 en tu cuenta, el límite sube hasta 1.000 peticiones/día. Todos los modelos comparten una misma cuota.

Entre los modelos gratuitos disponibles actualmente encontrarás opciones como qwen/qwen3-coder:free, z-ai/glm-4.5-air:free, openai/gpt-oss-120b:free y openai/gpt-oss-20b:free, varias variantes de los nuevos Nemotron 3 de NVIDIA (nano, super y omni), minimax/minimax-m2.5:free y modelos de Google como google/gemma-4-31b-it:free.

Recomendación: para aprender, practicar o usar agentes, el plan gratuito es suficiente. Pero si puedes pagar y seleccionar un modelo específico, te ahorrarás la lentitud.

Google AI Studio

Google AI Studio es el lugar central donde están todos los avances de Google en IA: puedes escribir código, probar modelos, generar imágenes y videos. Para nuestro caso, lo que interesa es generar una API key.

Vas a Get API key, creas una clave (puedes asociarla a cualquier proyecto) y la añades buscando "Google" entre los proveedores de tu herramienta. A partir de ahí tendrás disponibles los modelos de Google, como Gemini 3 Flash o las versiones Flash-Lite, y podrás configurar el nivel de esfuerzo (reasoning effort) de cada uno.

Como son gratuitos, todo el mundo intenta usarlos, así que es normal ver el mensaje de "este modelo está muy solicitado ahora mismo". Si te pasa, cambia a otro modelo (un Gemini un poco anterior como Gemini 2.5 Flash sigue siendo bastante decente).

Algunos límites por modelo:

Modelo	Límites
Gemini 3 Flash	250.000 tokens/min · 20 peticiones/día · 5 peticiones/min
Gemini 3.1 Flash-Lite	250.000 tokens/min · 500 peticiones/día · 15 peticiones/min
Gemini 2.5 Flash	250.000 tokens/min · 20 peticiones/día · 5 peticiones/min
Gemma 3 27B Instruct	15.000 tokens/min · 14.400 peticiones/día · 30 peticiones/min

Ojo con la privacidad: Google usa tus datos para entrenamiento cuando usas la API fuera de UK/CH/EEA/UE.

Si vas a usar mucho los modelos de Google, lo más recomendable es usar su propio CLI. Hace poco lanzaron el Antigravity CLI (se ejecuta con el comando ai), que es la forma más cómoda y rápida de aprovechar el modelo gratuito. Dentro del CLI puedes escribir /usage para ver todos los modelos gratuitos que tienes disponibles — que, como es de esperar, son puramente de Google.

NVIDIA NIM

NVIDIA NIM también ofrece modelos gratuitos. Como NVIDIA es básicamente la infraestructura detrás de muchos modelos abiertos, aquí encontrarás desde el reciente Nemotron 3 hasta modelos de Qwen y GLM. Vale mucho la pena echarle un ojo, sobre todo porque cuando sale un modelo nuevo suelen regalar tokens para que lo pruebes.

Límites: 40 peticiones/minuto. Requiere verificación con número de teléfono y los modelos suelen estar limitados en ventana de contexto.

OpenCode Zen y OpenCode Go

Aquí hay que aclarar algo: OpenCode es la herramienta o agente que usas, pero por separado ofrecen dos servicios de acceso a modelos que conviene no confundir.

OpenCode Zen funciona como OpenRouter — es un gateway de IA con modelos curados, donde pagas por uso (consumes saldo). Incluye algunos modelos gratuitos como MiniMax M2.5 Free, Big Pickle Stealth y Arcee Large Preview Free, además de modelos abiertos como Qwen y Kimi. Para conectarlo, te registras (yo lo hago con GitHub), copias tu API key y desde OpenCode usas /connect, buscas "OpenCode Zen", pegas la clave y presionas Enter.

OpenCode Go es diferente: es una suscripción de bajo coste pensada para llevar la programación agéntica a desarrolladores de todo el mundo, con límites generosos y acceso fiable a los modelos abiertos más capaces. Cuesta $5 el primer mes y luego $10/mes, puedes recargar crédito si lo necesitas y cancelar cuando quieras. Funciona con OpenCode o con cualquier otro agente.

Esta es mi recomendación principal si tuviera que elegir una sola opción: OpenCode Go. A diferencia del pago por uso de Zen, Go es una suscripción fija, así que sabes exactamente cuánto vas a pagar al mes sin sorpresas. Por una tarifa muy similar a lo que ya gastas en otras suscripciones de IA, obtienes acceso a modelos abiertos como DeepSeek, GLM, Kimi, Qwen y MiniMax.

Go incluye modelos como GLM-5.1, GLM-5, Kimi K2.5/K2.6, MiMo-V2-Pro, Qwen3.5/3.6 Plus, MiniMax M2.5/M2.7, y DeepSeek V4 Pro/Flash, entre otros. Los límites de uso se miden en solicitudes por ventana de 5 horas, y varían según el modelo (los modelos más ligeros como DeepSeek V4 Flash permiten muchísimas más solicitudes que los más pesados). Como estos modelos abiertos consumen muy pocos recursos, puedes hacer muchísimo con ellos.

Esto es básicamente hacia donde se están moviendo todos los servicios de IA hoy: planes de bajo coste apoyados en modelos abiertos.

HuggingFace Inference Providers

HuggingFace Inference Providers es otro proveedor al estilo de OpenRouter, pero con todavía más modelos. La razón es que HuggingFace es como un "GitHub de la IA": aloja modelos y datasets de entrenamiento, así que tiene una cantidad enorme de modelos que muchas veces no encuentras tan fácilmente en otro lado.

Lo interesante es que HuggingFace se conecta con otros proveedores y unifica todo en una sola API. Por debajo verás infraestructura de terceros como Fireworks, Together (DeepInfra) — que sirve modelos chinos tipo DeepSeek — o Replicate, para APIs de imágenes, texto, audio y más.

Para usarlo, te creas un token dándole acceso a Inference, lo copias y en OpenCode lo añades buscando "HuggingFace". Entre los modelos encontrarás variantes como Qwen 3 Embedding o versiones de Qwen Coder.

Límites: $0.10/mes en créditos. La inferencia serverless se limita a modelos menores de 10 GB, aunque algunos modelos populares se soportan aunque superen ese tamaño.

Otras plataformas que funcionan igual

A partir de aquí, todas estas plataformas se usan con el mismo método (cuenta → API key → pegar en tu herramienta). Te las menciono de forma rápida:

Vercel AI Gateway

Vercel AI Gateway ofrece un plan gratuito de $5/mes para acceder a varios modelos. No está pensado específicamente para desarrollo con agentes, sino para que construyas aplicaciones que consuman algún modelo. En su catálogo verás MiniMax M3, modelos de Groq, Anthropic y más, pero te los cobran por uso.

Cerebras

Cerebras ofrece un plan gratuito y otro de pago. Tiene modelos en producción y otros en preview (incluso modelos que aún no se han lanzado). Encontrarás modelos chinos y abiertos como gpt-oss-120b o Llama 3.1 8B. Sus límites gratuitos son generosos: 14.400 peticiones/día y 1.000.000 tokens/día.

Groq

Groq es otra plataforma del mismo estilo: te creas una cuenta y obtienes un plan gratuito. Al igual que OpenRouter, la oferta va variando según cuándo lo uses. Suelen regalar algún modelo abierto y vale la pena tenerlo como opción adicional. Entre sus modelos: gpt-oss-120b/20b, qwen3-32b, Llama 3.3 70B y modelos Whisper para audio.

Mistral, Cohere y Cloudflare Workers AI

Mistral tiene un plan gratuito (Experiment) que requiere aceptar el uso de datos para entrenamiento y verificación por teléfono. También ofrecen Codestral gratis para código.
Cohere ofrece 20 peticiones/min y 1.000 peticiones/mes compartidas entre toda la familia Command.
Cloudflare Workers AI te da 10.000 neurons/día, pero está pensado para desplegar tus propios modelos y se cobra por uso — más orientado a desarrollo de aplicaciones.

Una advertencia sobre GitHub Models

Un punto importante con GitHub Models: estos planes van cambiando constantemente. Al momento de escribir esto, los modelos de GitHub ya no son realmente gratuitos y tienen límites de tokens extremadamente restrictivos, dependientes de tu nivel de suscripción a Copilot. No los descartes del todo, pero tampoco esperes el plan generoso que quizás tenían antes.

Proveedores con créditos de prueba (trial)

Si ya tienes cuenta en alguno de estos servicios o quieres créditos para probar algo específico, varios ofrecen trials gratuitos:

Proveedor	Créditos	Modelos
Fireworks	$1	Varios modelos abiertos
Baseten	$30	Cualquier modelo (pago por cómputo)
Nebius	$1	Varios modelos abiertos
Novita	$0.50 por 1 año	Varios modelos abiertos
AI21	$10 por 3 meses	Familia Jamba
Upstage	$10 por 3 meses	Solar Pro/Mini
NLP Cloud	$15	Varios (requiere teléfono)
Alibaba Cloud Model Studio	1M tokens/modelo	Modelos Qwen
Modal	$5/mes ($30 con tarjeta)	Cualquier modelo (pago por cómputo)
Inference.net	$1 (+$25 por encuesta)	Varios modelos abiertos
Hyperbolic	$1	DeepSeek V3, Llama 3.3 70B, Qwen3 Coder
SambaNova Cloud	$5 por 3 meses	Llama, DeepSeek V3.2, MiniMax, gpt-oss-120b
Scaleway Generative APIs	1M tokens gratis	Qwen, Gemma, Llama, gpt-oss-120b y más

El repositorio de referencia

Todo este artículo está basado en el repositorio free-llm-api-resources de cheahjs, una lista enorme y actualizada de servicios que dan acceso gratuito a APIs de LLM. Si quieres encontrar todavía más recursos o ver los límites actualizados, ese es el lugar.

El único tema a considerar con todos estos proveedores es que los planes van variando constantemente: lo que hoy es gratis mañana puede cobrarse por uso, y al revés. Por eso conviene tener varias cuentas configuradas e ir alternando.

Conclusión

Si me preguntas por uno solo, te diría que vayas por OpenCode Go: es una suscripción de bajo coste ($5 el primer mes, luego $10/mes) que te da acceso fiable a los modelos abiertos más capaces con límites generosos. Lo prefiero por encima de OpenCode Zen precisamente porque Go es un pago de suscripción fijo en lugar de pago por uso — sabes exactamente cuánto gastas al mes. Junto con OpenRouter, es de los proveedores multi-modelo más sólidos ahora mismo, y entre esos dos puedes ir variando.

Al final, lo que estamos viendo es hacia dónde se dirige toda la industria: modelos abiertos como Qwen o DeepSeek que consumen muy pocos recursos y con los que puedes hacer muchísimo. Para aprender, experimentar o trabajar con presupuesto ajustado, estas plataformas son una puerta de entrada excelente.

¿Tienes dudas o sugerencias para el siguiente tema? Déjame un comentario. Y si quieres una asesoría personalizada sobre cualquier tema, puedes reservar una sesión en fazt.dev.