Qué Son los Agentes de IA Locales y Cómo Usar OpenClaw y Hermes | Fazt.dev

¿Qué son los agentes de IA que viven en un servidor?

Llevamos un par de años escuchando la palabra "agente". Al principio significaba poco más que un chatbot que respondía preguntas, y después un asistente dentro del editor de código que autocompletaba funciones. En 2026 el término apunta a algo distinto y mucho más concreto: un programa que instalas en una máquina, que se queda corriendo de forma permanente, y que ejecuta tareas reales en tu nombre mientras tú haces otra cosa —o mientras duermes.

Este artículo explica esa categoría específica de agente: el que vive en un servidor y controlas remotamente. No es un copiloto atado a tu IDE ni una pestaña de chat que se cierra cuando apagas el navegador. Es un proceso que sigue vivo, recuerda lo que hace, y al que le hablas desde Telegram o WhatsApp como si fuera un colaborador más.

La idea en una frase

Un agente de IA no es solo el modelo. Un modelo de lenguaje, por sí solo, razona y escribe texto, pero no puede abrir un navegador, leer tus archivos ni enviarte un mensaje a medianoche. Para que sea útil de verdad, el modelo necesita estar conectado a un conjunto de piezas: un lugar donde correr, memoria, ojos para ver la pantalla, canales para comunicarse, disparadores para activarse solo, y herramientas para actuar.

La mejor forma de entenderlo es con una metáfora: pensar en el agente como un organismo que vive dentro de una casa. Cada parte del organismo cumple una función. Veámoslas una por una.

La anatomía de un agente

🏠 Home / La casa

Es la máquina donde el agente vive y se ejecuta. Y aquí está el punto clave de esta categoría: tú decides en qué máquina corre. No depende de un servicio en la nube de un tercero.

Puede ser:

Un VPS (la opción más común)
Una Raspberry Pi
Una Mac Mini
Un computador viejo que tengas arrumbado
Cualquier servidor

Lo único que realmente necesitas es conectarlo a internet y listo. Esto cambia todo respecto a un chatbot tradicional: como el agente vive en tu hardware, sigue funcionando aunque cierres tu laptop, y los datos no salen de tu infraestructura.

🧠 Brain / El cerebro

Es el modelo de lenguaje (el LLM). Es quien razona, interpreta tus instrucciones, toma decisiones y planifica qué pasos seguir.

La gracia de estos agentes es que el cerebro es intercambiable. Puedes usar:

Modelos de Claude (Opus, por ejemplo)
Modelos de OpenAI (GPT)
Modelos open source, que han madurado muchísimo: Kimi, MiniMax, GLM, Qwen

Esto significa que puedes elegir el cerebro según tu presupuesto y tus necesidades de privacidad. ¿Quieres todo local y sin enviar datos a nadie? Usas un modelo open source corriendo en tu propia máquina. ¿Quieres máxima capacidad de razonamiento? Conectas un modelo de frontera por API.

💾 Memory / La memoria

Es la información que el agente puede consultar para tener contexto. Sin memoria, el agente sufre de amnesia: cada conversación arranca de cero y tienes que volver a explicarle todo.

La memoria suele ser:

Archivos de texto y .md
Notas y documentos
Instrucciones permanentes
Datos de tus proyectos

Gracias a esto el agente recuerda tus preferencias, el nombre de tus proyectos, tu forma de trabajar. Mientras más corre, mejor te conoce.

👀 Eyes / Los ojos

Es la capacidad del agente para ver lo que ocurre en la pantalla. Aquí es donde deja de ser un chatbot y empieza a comportarse como un usuario real.

Los ojos le permiten trabajar con:

Capturas de pantalla
Navegación web
Interfaces gráficas
Formularios, botones, páginas web

Con esto, el agente puede interactuar con aplicaciones que ni siquiera tienen API: abre un navegador, mira la página, hace clic, escribe. Como lo harías tú.

👂🗣️ Ears & Mouth / Oídos y boca

Son los canales de comunicación —en la jerga de estas herramientas se les llama channels. Por aquí el agente recibe tus instrucciones y te responde.

Los más comunes:

Telegram
WhatsApp
iMessage
Discord
Slack
Email

Este es el detalle que define la experiencia: no abres "otra app". Le hablas al agente desde la misma app de mensajería que ya usas todo el día. Le mandas un mensaje desde el celular, el agente hace el trabajo en el servidor, y te responde por el mismo chat.

💓 Heartbeat / El latido

Son los disparadores que activan al agente sin que tú tengas que pedirlo manualmente cada vez. El latido es lo que convierte al agente de algo reactivo (responde cuando le hablas) en algo proactivo (actúa solo).

Incluye:

Cron jobs (tareas en horarios fijos)
Webhooks
Tareas programadas
Eventos automáticos (por ubicación, por una transacción bancaria, al terminar una reunión)

🐙 Tentacles / Los tentáculos

Son las habilidades o flujos de trabajo que el agente puede ejecutar. Si los ojos son para ver y el cerebro para pensar, los tentáculos son las manos que actúan.

Por ejemplo:

Hacer scraping
Escribir código
Publicar contenido
Enviar emails
Llenar formularios
Actualizar un CRM
Ejecutar automatizaciones

El resumen de la arquitectura

Juntando todo, un agente de IA útil necesita:

Una computadora donde vivir
+ un cerebro (LLM)
+ memoria / contexto
+ visión de pantalla o web
+ canales de comunicación
+ disparadores automáticos
+ herramientas o habilidades para actuar

Quita cualquiera de esas piezas y el agente se queda corto. Un modelo sin ojos no puede usar una web sin API. Sin latido, no hace nada hasta que le hablas. Sin canales, no tienes forma de controlarlo desde el celular. La utilidad real aparece cuando todas las partes trabajan juntas.

Qué puede hacer en la práctica

La teoría es bonita, pero lo interesante son los casos de uso. Los separo en dos grupos según cómo se activan.

Tareas que tú le pides (uso de computadora)

Estas las dispara una instrucción tuya. El patrón siempre es el mismo: el agente abre algo, lo lee, actúa y te confirma con una captura.

Llenar cualquier formulario web. Abre el navegador → navega al formulario → lee tus datos → completa cada campo → envía y toma captura de confirmación.
Monitorear un sitio en busca de cambios. Visita una página según un horario → la compara con la última visita → detecta cambios de precio, contenido o disponibilidad → te alerta de inmediato.
Publicar en varias plataformas. Abre Twitter, LinkedIn e Instagram uno por uno → adapta el formato a cada una → sube la imagen correcta → publica y captura cada post.
Reservar en un restaurante. Abre OpenTable o el sitio del local → busca tu fecha y hora → elige el mejor horario disponible → ingresa tus datos → confirma.
Extraer datos de un sitio sin API. Abre el sitio → navega las páginas → extrae los datos estructurados → los guarda en una hoja de cálculo.
Probar tu propio producto como usuario real. Abre tu app → recorre los flujos principales → identifica botones rotos o errores → escribe un reporte de bugs con capturas.
Postular a trabajos mientras duermes. Abre portales de empleo → busca puestos que coincidan con tus criterios → adapta tu CV y carta → envía la postulación.
Comprar algo cuando baja de precio. Revisa la página del producto según horario → detecta que llegó a tu precio objetivo → lo agrega al carrito → completa la compra → te confirma.
Llenar tu CRM tras una llamada de ventas. Abre el CRM → encuentra el contacto → completa notas, próximos pasos y etapa del negocio → crea un recordatorio de seguimiento.

Tareas que se activan solas (cron y eventos)

Aquí entra el heartbeat. Nadie las pide: ocurren porque llegó la fecha, la hora o un evento.

Cada lunes 8 a. m.: revisa tu calendario de la semana → resume lo que viene → detecta días sobrecargados → te envía un resumen de preparación.
El día 1 de cada mes: revisa los gastos del mes anterior → los categoriza → los compara con el presupuesto → marca dónde te excediste → genera un resumen financiero.
Cada trimestre: revisa proyectos completados → resume lo entregado → identifica lo retrasado → redacta un informe → sugiere prioridades.
Cada noche a medianoche: escanea tu bandeja en busca de correos sin responder de más de 48 h → redacta seguimientos → los deja en cola para tu revisión matutina.
Cada vez que llega un pago al banco: categoriza la transacción → la compara con facturas esperadas → marca movimientos no reconocidos → actualiza tu registro de flujo de caja.
Cada vez que terminas una reunión: resume las notas → extrae tareas pendientes → las agrega a tu lista → redacta los correos de seguimiento prometidos.
Cada vez que aterrizas de un vuelo (por ubicación): detecta la nueva zona horaria → reprograma tus recordatorios a hora local → te envía un resumen de lo que necesita atención hoy.

El patrón es claro: el agente deja de ser una herramienta que usas y se convierte en algo que trabaja en segundo plano por ti.

Teams: varios agentes trabajando juntos

Un agente puede coordinar a otros. En lugar de un único asistente que lo hace todo, puedes armar equipos especializados donde cada agente tiene un rol:

Un software team (uno escribe código, otro lo revisa, otro documenta)
Un research team (uno busca, otro sintetiza, otro redacta)
Un investment team (uno recopila datos de mercado, otro analiza, otro reporta)

Es el siguiente nivel: pasar de un asistente solitario a una pequeña organización de agentes que se reparten el trabajo.

El ecosistema en 2026

Esta categoría explotó este año. El proyecto que la popularizó fue OpenClaw, que empezó como un experimento de fin de semana a finales de 2025 y terminó convirtiéndose en uno de los repositorios más estrellados de la historia de GitHub. Su modelo —un gateway local que conecta el LLM con tus apps de mensajería— se volvió la referencia, y trae un marketplace de habilidades comunitarias llamado ClawHub.

A su alrededor creció toda una familia de alternativas con la misma arquitectura pero distintas prioridades:

Hermes, de Nous Research, orientado a desarrolladores, con memoria persistente, creación automática de habilidades y soporte para 200+ modelos.
ZeroClaw, PicoClaw, MimiClaw: variantes ligeras pensadas para hardware modesto (incluso una Raspberry Pi pequeña o un microcontrolador).
Claude Code Channels, de Anthropic, que permite controlar sesiones de Claude Code desde Telegram y Discord —especialmente útil para flujos de desarrollo.

Lo importante no es cuál elegir hoy, sino entender que todos comparten el mismo patrón: un proceso persistente que vive en tu servidor, se conecta a tus apps de mensajería, llama a un LLM, ejecuta herramientas y mantiene su estado entre sesiones.

Una nota sobre seguridad. Como estos agentes tienen acceso real a tu navegador, tus archivos y tus credenciales, los marketplaces de habilidades comunitarias traen riesgo de cadena de suministro. Conviene tratar la instalación de cada habilidad como instalarías una extensión de navegador desconocida: revisar la fuente, limitar permisos y no darle al agente más alcance del que la tarea estrictamente necesita.

En resumen

La categoría de agentes que vive en un servidor y controlas remotamente representa un cambio de mentalidad respecto al chatbot clásico:

	Chatbot tradicional	Agente en servidor
Dónde corre	En la nube de un tercero	En tu propia máquina
Cuándo trabaja	Solo cuando le hablas	24/7, también solo
Cómo lo controlas	Abriendo su app/web	Desde tu mensajería habitual
Qué puede hacer	Responder texto	Ver pantalla, navegar, actuar
Memoria	Se olvida al cerrar	Persiste entre sesiones
Tus datos	Salen a un servidor ajeno	Se quedan en tu infraestructura

No es magia: es un modelo de lenguaje (el cerebro) conectado a las piezas correctas —una casa donde vivir, ojos, oídos, un latido y tentáculos. Cuando juntas todo eso en una máquina que controlas, dejas de tener un asistente que responde y empiezas a tener uno que hace.