LMStudio: IA Gratis en Tu PC Sin Pagar Tokens (Tutorial 2025) | Fazt.dev

LM Studio: Cómo ejecutar modelos de IA localmente en tu máquina

Cada vez es más popular la idea de instalar una IA directamente en tu propia máquina, ya sea para evitar gastar tokens, no depender de servicios pagados, o simplemente experimentar con modelos open source. El problema es que existen muchos programas para hacerlo, algunos bastante complicados de configurar.

En este artículo te voy a mostrar LM Studio, una herramienta gratuita y muy fácil de usar que te permite descargar e instalar modelos de IA en tu computadora, te da una interfaz cómoda para chatear y, además, expone una API para que puedas integrarla en tus propios proyectos de desarrollo.

¿Qué es LM Studio?

LM Studio es un programa gratuito que te permite:

Instalar modelos de IA open source en tu propia máquina.
Chatear con ellos a través de una interfaz gráfica intuitiva.
Probar múltiples modelos sin pagar suscripciones ni crear cuentas de prueba.
Exponer una API local para que tus aplicaciones consuman estos modelos.
Integrar MCPs (Model Context Protocol) para conectar la IA con servicios externos como Notion.

Es decir, no solamente es un cliente para chatear, también puedes utilizarlo como infraestructura local para desarrollo.

Instalación

LM Studio está disponible para Windows, Linux y Mac. Puedes descargarlo desde su web oficial:

https://lmstudio.ai

En Windows y Mac, simplemente descargas el instalador y sigues los pasos típicos: aceptar, siguiente, siguiente, finalizar. En Linux tienes un comando de instalación desde la consola, pero el flujo es exactamente el mismo.

Descargando tu primer modelo

Una vez instalado LM Studio, lo primero que vas a notar al abrir un chat es que no puedes escribir nada hasta seleccionar un modelo. La aplicación te lo va a recordar con una notificación.

El modelo recomendado actualmente para empezar es Gemma 3 (la versión E4B), un modelo abierto de Google que consume muy pocos recursos:

Espacio en disco: ~6 GB
RAM mínima recomendada: 8 GB

Para descargarlo basta con darle clic en Download. Una vez termine la descarga, presionas Load Model. Allí puedes ajustar parámetros como la capacidad de contexto (cuánto va a soportar por sesión), aunque los valores por defecto funcionan bien para empezar.

Con el modelo cargado, ya puedes empezar a chatear. Las respuestas son sorprendentemente rápidas: un simple "hola" puede responderse en menos de 0.3 segundos.

Características clave del chat

Modo Think (Pensamiento)

Junto al campo de entrada vas a notar un recuadro llamado Think. Cuando lo activas, el modelo realiza un procesamiento previo antes de responder, similar al razonamiento de modelos más avanzados.

Sin Think: Respuestas instantáneas, útil para consultas simples.
Con Think: El modelo "piensa" antes de responder. Útil para planificaciones, problemas complejos o cuando necesitas mejor calidad en la respuesta.

Modo Vision

LM Studio también soporta modelos con visión, lo que significa que puedes subir imágenes y pedir al modelo que las describa o las interprete. Por ejemplo, subir una foto y pedirle "qué es lo que ves" funciona perfectamente con Gemma 3.

Buscando y gestionando modelos

En la sección My Models puedes ver los modelos que ya tienes instalados. Para descubrir nuevos modelos, ve a Model Search, donde encontrarás un catálogo bastante amplio:

Gemma 3 (variantes E2B para móviles y E4B para computadoras personales).
Qwen 3 (incluyendo Qwen 3 Coder).
GLM y muchos otros.

Compatibilidad con tu hardware

Una de las funciones más útiles del buscador de modelos es que te avisa si tu máquina puede ejecutarlo o no antes de descargarlo. Vas a ver etiquetas como:

✅ "Puedes utilizar toda la carga de tu GPU".
⚠️ "Carga parcial de GPU posible".
❌ "Parece que es demasiado grande".

Esto te ahorra descargas innecesarias de modelos que tu hardware no podrá ejecutar correctamente.

Cambiando entre modelos

Una vez tengas varios modelos instalados, puedes alternar entre ellos desde un selector en la parte superior del chat. También puedes ajustar la carga del GPU y el contexto según las capacidades de tu máquina.

Organizando tus chats

Para mantener todo ordenado, LM Studio te permite agrupar conversaciones en carpetas. Es una funcionalidad simple pero práctica cuando trabajas en múltiples temas o investigaciones a la vez.

Integrando MCPs (Model Context Protocol)

En el chat vas a encontrar un ícono de un martillo llamado Integraciones. Aquí es donde puedes instalar MCPs para que tu modelo local pueda interactuar con servicios externos.

⚠️ Precaución: Los MCPs pueden ejecutar código arbitrario o acceder a archivos del sistema. Instala solo los que provengan de fuentes confiables.

Ejemplo: conectar Notion

Como ejemplo, vamos a conectar el MCP oficial de Notion:

Al darle clic en el ícono del martillo se abre un archivo mcp.json.
Copiamos la configuración del MCP de Notion que da la documentación oficial y la pegamos dentro de la sección mcpServers.
Para obtener el token de acceso, vamos a Profile → Integrations → Create new connection en Notion.
Configuramos los permisos: leer contenido, actualizar, insertar, comentarios, etc.
En la sección Content Access, seleccionamos las páginas que el MCP podrá ver (puede ser todo el workspace o páginas específicas).
Copiamos el token generado y lo pegamos en nuestro mcp.json entre las comillas correspondientes.
Guardamos y activamos el MCP desde el chat.

Una vez configurado, puedes pedirle al modelo cosas como:

Crea una planificación de tareas para este proyecto en Notion: <URL>

Limitaciones de los MCPs con modelos locales

Aquí hay que ser realistas: aunque la integración con MCPs funciona, los modelos locales aún tienen dificultades para usar herramientas externas de manera fiable. A diferencia de los modelos pagados (GPT, Claude) que están constantemente actualizados, los modelos open source suelen ir un paso atrás en cuanto a llamadas a herramientas y formato de respuestas.

En las pruebas, es común que el modelo intente listar las herramientas disponibles, pregunte por detalles que ya están en el prompt, o falle al insertar datos en la API destino. Incluso a veces termina recomendándote: "por favor copia y pega esto en tu página"... lo cual elimina el propósito del MCP.

💡 Tip: Si necesitas integraciones robustas con servicios externos, los modelos pagados siguen siendo la mejor opción. Los modelos locales son excelentes para chat y desarrollo, pero no aún para automatizaciones críticas vía MCP.

Otro punto importante: si te aparece un error de contexto lleno, abre la configuración del modelo y duplica el valor del contexto (por ejemplo de 4,000 a 8,000 o 10,000 tokens). Luego presiona reintentar.

La API de LM Studio: usándolo para desarrollo

Aquí viene lo más interesante para desarrolladores: LM Studio expone una API local que puedes consumir desde cualquier aplicación. Esto significa que puedes desarrollar apps con IA sin gastar tokens en OpenAI o Anthropic mientras pruebas.

Activando el servidor local

Ve a la sección Developer.
Verás dos sub-secciones: Local Server y Developer Docs.
En Local Server, el estado inicial es Stop. Simplemente actívalo.
Obtienes una dirección con puerto local (típicamente http://localhost:1234).
Debajo hay una terminal con logs en tiempo real para ver las peticiones que llegan.

Usando el SDK

LM Studio ofrece SDKs oficiales para JavaScript y Python, además de soporte para llamadas HTTP directas desde cualquier otro lenguaje.

Ejemplo con Node.js:

mkdir my-chat
cd my-chat
npm install @lmstudio/sdk

Crea un archivo index.js con el código de ejemplo de la documentación. Importante: configura tu package.json con "type": "module" ya que el SDK usa imports de ES Modules.

Otro detalle clave: especifica correctamente el nombre del modelo. En la sección My Models puedes copiar el identificador exacto. Por ejemplo, para Gemma 3 sería:

const model = await client.llm.model("google/gemma-3-4b");

Si ejecutas node index.js, vas a ver cómo el modelo procesa (con su fase de Thinking) y te responde directamente desde tu servidor local.

Ejemplo práctico: una UI de chat

Una técnica recomendada al desarrollar:

Para la UI y código complejo: Usa modelos pagados (Claude, GPT). Son mucho más capaces y producen mejor código.
Para el modelo que consume el usuario final: Usa el modelo local vía LM Studio. Así no gastas tokens innecesariamente.

Por ejemplo, puedes pedirle a Claude que cree la interfaz completa de un chat (con sidebar, render de markdown, manejo de múltiples chats) y configurar esa UI para consumir el modelo Gemma 3 local a través del SDK de LM Studio.

El resultado es sorprendente: tienes una aplicación de chat funcional, con renderizado de markdown, tablas, y respuestas en streaming, completamente gratuita y corriendo en tu máquina.

Modo headless

Si quieres llevar esto más allá, LM Studio también funciona en modo headless, es decir, sin interfaz gráfica. Lo activas con el comando lms.

¿Para qué sirve esto?

Para alojar la IA en hardware dedicado como Raspberry Pi con módulos de IA, Mac Studio, o equipos como el NVIDIA DGX Spark.
Para dejar una máquina sirviendo el modelo y consumirlo desde otros dispositivos en la red local.

Para producción seria con muchos usuarios, herramientas como Ollama o Docker suelen ser mejores opciones. LM Studio brilla más en entornos locales o de desarrollo.

Configuraciones de seguridad

Si vas a exponer el servidor local, en Server Settings puedes:

Habilitar CORS para limitar qué aplicaciones se conectan.
Cambiar el puerto por defecto.
Requerir autenticación mediante un header Authorization.

Esto es útil si necesitas exponer el modelo a otros dispositivos en tu red.

Recomendación práctica: ¿cuándo usar modelos locales?

Después de probar a fondo LM Studio, mi recomendación es:

Caso de uso	Recomendación
Aplicación inteligente para usuarios finales	Modelo local (ahorras tokens)
Desarrollo y testing de prompts	Modelo local (sin costos)
Tareas complejas de código y análisis	Modelo pagado (mejor calidad)
Integraciones MCP con servicios externos	Modelo pagado (más fiable)
Chat personal y aprendizaje	Modelo local (privacidad)

Conclusión

LM Studio se ha convertido en una de las interfaces más simples y completas para experimentar con modelos de IA locales. La calidad de modelos como Gemma 3 ha mejorado tanto en los últimos años que ya se sienten como modelos pagados en muchos casos de uso.

Para developers, la combinación de interfaz gráfica + API local + SDK lo hace especialmente atractivo: puedes pasar del chat exploratorio al prototipo funcional en minutos, sin gastar un solo token de servicios pagados.

Si están construyendo aplicaciones con IA, vale mucho la pena considerar modelos locales para la lógica del usuario final y reservar los modelos pagados para las tareas más críticas durante el desarrollo. Tu billetera te lo va a agradecer.

¿Conoces otros programas similares a LM Studio que valga la pena revisar? Déjamelo en los comentarios.