¿IA en local para reemplazar tu suscripción? Probé el hardware y esto es lo que encontré
Estos últimos años he estado bastante metido en el tema del hardware dedicado para IA, y lo interesante es que ya bajó a nivel de consumidor. Empresas como NVIDIA y AMD ahora venden equipos pensados para empresas pequeñas, desarrolladores y gente que está aprendiendo IA en serio para crear proyectos de verdad. Hablo de equipos como el NVIDIA DGX Spark, el AMD Ryzen AI Max+ 395 (Strix Halo), los Mac Studio y los clústeres de RTX que algunos están armando en casa.
El problema es que cuando escuchas hablar de estos equipos, es fácil creer que ya están listos para ejecutar modelos gigantes y reemplazar tu suscripción de IA. Tuve varios de estos en la mano y los estuve probando lo suficiente como para enterarme de qué van realmente. Así que acá te dejo mi resumen honesto: qué hacen bien, qué no, y si de verdad sirven para botar tu suscripción y mudarte a un modelo local.
Vamos a empezar.
El problema que estos equipos prometen solucionar
La idea es la que todo el mundo quiere ahorita: tener tu IA en local. Es decir, no pagar suscripciones —o al menos no pagar las más caras— y delegar el trabajo pesado a un equipo que tienes en tu escritorio. Suena perfecto. La pregunta es si eso realmente es posible hoy.
Para responderla, me centré en cuatro caminos:
- NVIDIA DGX Spark — el equipo que estuve probando esta semana, con cosas que me sorprendieron para bien y para mal.
- AMD Ryzen AI Max+ 395 (Strix Halo) — la alternativa de AMD, con un par de características incluso más novedosas.
- Mac Studio — bajo la misma idea de tenerlo alojado como una especie de servidor que también corre modelos.
- Armar tu propio clúster con gráficas — la opción más difícil, pero también la de mayor techo de rendimiento.
Comparación rápida y el tema del precio
Antes de entrar en detalle, aclaremos los precios, porque ahí hay mucha desinformación dando vueltas.
| Equipo | Memoria unificada | Ancho de banda | Precio aprox. | Sistema operativo |
|---|---|---|---|---|
| NVIDIA DGX Spark (Founder's Edition) | 128 GB | 273 GB/s | ~USD 4,000 | Linux (DGX OS) |
| AMD Ryzen AI Max+ 395 (Strix Halo) | hasta 128 GB | ~256 GB/s | ~USD 1,500–2,000 (mini PC) | Linux y Windows |
| Mac Studio (M4 Max) | hasta 128 GB | 546 GB/s | ~USD 2,000+ | macOS |
| Mac Studio (M3 Ultra) | hasta 256 GB | 800 GB/s | ~USD 4,000+ | macOS |
En Twitter se movió mucho la idea de que el Spark cuesta USD 2,000 o algo así, y la verdad es que no. El precio real de la Founder's Edition ronda los USD 4,000, y aunque algunas variantes de OEM (ASUS, Dell, HP, Lenovo, Acer) bajan un poco, no esperes milagros. El de AMD sí es bastante más barato en formato mini PC, pero tampoco regalado. Y los Mac Studio rondan ese mismo rango de los USD 4,000 en sus configuraciones serias.
Así que quédate con esta idea: el precio estándar de estos equipos ronda los USD 4,000 reales. No son USD 2,000.
La clave que casi nadie te explica: la memoria unificada (y su trampa)
Acá viene lo importante. A diferencia de los equipos convencionales —donde la VRAM y la RAM están separadas y los datos viajan de un lado a otro cuando ejecutas un modelo— estos equipos usan una arquitectura llamada memoria unificada, donde la VRAM y la RAM se comparten en un mismo pool.
Por eso, cuando ves las especificaciones, la memoria es justamente esa: 128 GB para cada uno, o hasta 512 GB dependiendo de qué adquieras. Y eso es lo que te permite cargar modelos enormes que jamás entrarían en la VRAM de una gráfica normal.
Pero acá está la trampa, y es lo que genera más desilusiones:
Poder cargar un modelo grande no significa que vaya a responder rápido.
Estos equipos vienen con un ancho de banda determinado, y ese ancho de banda es lo que realmente limita la velocidad de un modelo, por más RAM que tengas. Sí, puedes instalar un modelo grande y ejecutarlo, pero al momento de responderte te va a tirar pocos tokens por segundo.
Para que te hagas una idea concreta: puedes instalar un Qwen3 de 30B y verlo correr a 4 u 8 tokens por segundo. Eso es bastante bajo. En comparación, un modelo en la nube como GPT o Claude te responde alrededor de 70, 100 o muchos más tokens por segundo, dependiendo del servicio.
¿Y los modelos de 200B o 300B que prometen? Sí, los puedes cargar, pero cuantizados. Es decir, no es la versión original del modelo, sino una versión compactada para que entre en el equipo. Y de nuevo: entra, corre, pero la velocidad no es ninguna maravilla.
Entonces, ¿para qué sirven realmente?
Si en redes sociales te vendieron que estos equipos reemplazan un clúster de gráficas para tener modelos locales de primer nivel, te mintieron a medias. La idea real de estos equipos es otra: prototipar.
Te explico para qué los veo útiles de verdad:
- Desarrollo en local. Estos días estuve usando el Spark justamente para desarrollar, y como la RAM es tanta, hasta puedes correr múltiples proyectos a la vez sin problema. Para eso funciona muy bien.
- Fine-tuning. Si quieres aprender a hacer fine-tuning de modelos o ejecutarlos y alterarlos, acá la historia cambia. Hacer fine-tuning en la nube es caro; si lo haces en tu propio equipo cuantas veces quieras, te sale mucho más barato.
- Correr la parte pesada de tu pipeline mientras desarrollas desde un laptop conectado al equipo.
Lo que no te recomiendo es esperar que un modelo local te responda con la calidad y velocidad de Claude o un modelo chino ya desplegado en la nube. Para desarrollo rápido con un modelo cuantizado pequeño, ok. Pero si vas a crear un proyecto serio en el que tendrás que hacer modificaciones constantes, honestamente esto no te va a bastar todavía.
Equipo por equipo
NVIDIA DGX Spark
El Spark es de los que vienen "prehechos": lo compras, lo conectas, lo enciendes y a trabajar. Corre sobre DGX OS (basado en Ubuntu) y trae todo el stack de NVIDIA preinstalado (CUDA y compañía).
Una característica buena: estos equipos se pueden apilar en modo clúster. Puedes unir hasta cuatro Sparks y con eso cargar modelos mucho más grandes —hablamos de modelos de hasta 120B—. Si hablamos de código, también entra un Qwen Coder en su versión de 80B, que es de las más grandes, y con software adecuado puedes llegar a casi 29 tokens por segundo en esa configuración.
Su arquitectura, además, le da una ventaja en inferencia por cómo está diseñada, sobre todo con modelos cuantizados a FP4 que las tensor cores de Blackwell ejecutan de forma nativa.
Su talón de Aquiles: el ancho de banda de 273 GB/s, que es el cuello de botella para un solo usuario generando texto.
AMD Ryzen AI Max+ 395 (Strix Halo)
Es la competencia directa del Spark y, en relación precio-prestaciones, te dan prácticamente lo mismo por menos dinero. En formato mini PC lo consigues entre USD 1,500 y 2,000, lo cual lo vuelve la opción más accesible para entrar a este mundo.
Acá hay un punto que me gustó: con software real, este equipo puede comportarse incluso mejor de lo que mucha gente espera. Sí puedes instalar un Qwen, un Flux o un Stable Diffusion, y va bastante más rápido en ese tipo de cargas. Según las métricas, en varios escenarios responde mejor que el Spark.
Eso sí, sufre del mismo problema de fondo: el ancho de banda (~256 GB/s) sigue siendo el cuello de botella, así que tampoco esperes que resuelva mágicamente el tema de los modelos grandes a alta velocidad. Para modelos MoE en el rango de 30B a 120B es donde mejor se mueve.
Su gran ventaja sobre el Spark: soporta Linux y Windows. Si eres desarrollador que trabaja en Windows, creas aplicaciones para Windows y vas a desplegar en Azure, el AMD te viene mucho mejor porque tienes el mismo entorno donde vas a desplegar.
Mac Studio
Con el Mac Studio pasa lo contrario en el tema clave: el ancho de banda es mucho mayor. Un M4 Max llega a 546 GB/s y un M3 Ultra a 800 GB/s. Eso significa que, al ejecutar un modelo grande, obtienes muchos más tokens por segundo que con el Spark o el AMD.
La contraparte es que en inferencia pura la arquitectura de NVIDIA puede tener ventaja por su diseño y su soporte nativo de FP4. Y ojo: la generación de tokens por segundo no lo es todo; la calidad del cómputo también pesa.
El Mac Studio es solo macOS y, por lo que veo, la gran mayoría lo usa para un setup de home o para tener todo integrado con el ecosistema de Apple. Si ya vives en ese ecosistema, esta opción te va a calzar mucho mejor. Acá el software de referencia es MLX, que está mejor afinado que las alternativas para sacarle el jugo a la memoria unificada.
Armar tu propio clúster con gráficas
Esta cuarta opción es harina de otro costal. Es mucho más difícil, y aunque puedes obtener un rendimiento muy superior, también te exige conocer a fondo cómo funcionan los modelos y sus configuraciones. Acá prácticamente puedes correr lo que quieras.
Para que te hagas una idea del techo: hace unos días vi en Twitter un setup que conectaba 32 RTX 5090 repartidas en cuatro servidores. Eso es básicamente un data center casero para correr modelos de IA. Es una exageración para el 99% de la gente, pero te muestra hacia dónde apunta la ambición de quienes quieren lo máximo en local.
¿Qué sistema operativo viene con cada uno?
Un detalle que pesa más de lo que parece:
- DGX Spark → solo Linux.
- AMD Ryzen AI Max+ 395 → Linux y Windows.
- Mac Studio → solo macOS.
Si siempre has desplegado en servidores o eres desarrollador web que va a conectar una app con un modelo propio para hacer pruebas, el Spark te viene bien. Si trabajas en Windows y despliegas en Azure, el AMD es tu opción. Y si vives en Apple, el Mac Studio.
Si este año escuchaste de proyectos como OpenClaw o Hermes y viste a gente comprando este tipo de equipos, justamente estos tres "prehechos" cumplen esa idea de consumidor: compras, conectas y listo. Cualquier persona con conocimientos medianamente técnicos puede usar uno sin problemas. La cuarta opción (el clúster) ya es para nivel avanzado.
La pregunta del millón: ¿salen más baratos que una suscripción?
A corto plazo, no.
Una suscripción de IA te puede costar USD 100 al mes, y con lo que produces probablemente cubres ese gasto. Tener un equipo local no va tanto con esa lógica de "ahorro inmediato". Hay gente que ya tiene los equipos armados o ya tiene gráficas para otros usos y de paso las aprovecha para un modelo local —para ellos tiene sentido—. Pero si hablamos de una persona común que recién va a adquirir su equipo desde cero, no es rentable a corto plazo. Estos equipos requieren bastante asistencia y conocimiento para funcionar de verdad.
¿A futuro? Probablemente sí mejore. Los modelos se van haciendo más pequeños, aparecen versiones cuantizadas con mejor respuesta, y eso ya está pasando. Pero en la práctica de hoy, cuando vas a hacer un trabajo real y quieres la mejor respuesta, sigue siendo más sencillo usar un modelo desplegado en la nube y sacar tu trabajo adelante.
Dónde sí pueden brillar los modelos locales:
- Cuando ya tienes un entorno preestablecido con herramientas muy definidas y sabes hacer tu trabajo. Ahí puedes guiar al modelo y revisar que lo haga bien.
Dónde te van a frustrar:
- En entornos desconocidos, donde estás aprendiendo una herramienta nueva o creando un proyecto del que no sabes muchas cosas. Ahí un Claude Opus o un GPT desplegado, con el máximo esfuerzo, te va a producir algo mucho más útil que un modelo pequeño de unos cuantos billones de parámetros corriendo en tu máquina. Y eso sin contar el precio del hardware.
Mi conclusión honesta
Justo ahora hay muchísima gente ilusionada con tener su modelo en local. Y lo entiendo: es divertido, suena interesante y técnicamente es un reto chévere. Pero cuando te toca desarrollar de verdad, tienes que tener en cuenta lo que acabo de contarte. Estos equipos son excelentes para prototipar, hacer fine-tuning y aprender, no para reemplazar tu suscripción de IA de un día para otro.
Si tú ya lograste una calidad parecida a la de un Opus o un GPT con modelos locales para proyectos grandes y reales, cuéntame cómo lo hiciste —he visto modelos nuevos y mucha gente probando modelos fine-tuneados que los usan en su día a día, y me interesa el tema—. Muy pronto voy a traer comparativas de modelos, porque esta semana estuve probando varios (abiertos, pagados y nuevos) y hay benchmarks por todos lados que ya nadie sabe cuál seguir. Voy a tratar de traerte un resumen de todo eso.
Si quieres ir más a fondo en cualquiera de estos temas, recuerda que en mi web puedes reservar asesorías personalizadas. Y déjame en los comentarios tus dudas o sugerencias para el siguiente video.
Nos vemos en el próximo. 🚀