Claude Sonnet 4.5: Review rápido y primeras impresiones | Fazt.dev

Claude Sonnet 4.5 — Impresiones rápidas tras probarlo

Recientemente publiqué un video en mi canal donde compartí mis primeras impresiones tras probar Claude Sonnet 4.5, la nueva versión del modelo de IA de Anthropic. Aquí te dejo un resumen escrito con mis ideas principales, junto a lo bueno y lo que aún podría mejorar.

🔍 Qué es Claude Sonnet 4.5

Claude Sonnet 4.5 es la versión más reciente del modelo de inteligencia artificial de Anthropic, enfocada especialmente en tareas de programación, razonamiento matemático y uso intensivo de herramientas.
👉 Leer más en el sitio oficial

Algunas de sus características destacadas:

Soporte para checkpoints (puntos de guardado) para retroceder en el flujo de trabajo sin perder todo.
Nueva interfaz de terminal mejorada y una extensión nativa para VS Code.
Capacidad para editar contexto largo y manejar “agentes” con más autonomía.
Integración de ejecución de código y creación de archivos (hojas de cálculo, documentos, etc.) directamente dentro de la conversación.

✅ Lo que me impresionó

En el video comenté algunos puntos que me parecieron muy fuertes en esta versión:

Rendimiento en tareas complejas: mantiene coherencia por periodos largos, lo que lo hace más confiable en operaciones multi-paso.
Mejoras cuantitativas: en benchmarks como SWE-bench Verified y OSWorld muestra saltos grandes respecto a versiones anteriores.
Seguridad y alineamiento: Anthropic afirma que esta versión es su modelo más alineado hasta la fecha, reduciendo sesgos y comportamientos engañosos.
Precio sin aumento: a pesar de las mejoras, el coste por token no cambia respecto a Sonnet 4.

⚠️ Lo que aún me genera dudas

Durante el review mencioné algunas áreas donde aún debe demostrarse:

Edge cases y errores raros: en tareas muy específicas puede comportarse de forma inesperada.
Límites de contexto extremos: aunque soporta edición de contexto largo, habrá que ver su estabilidad en historiales extensos.
Uso real en producción: las mejoras en benchmarks son prometedoras, pero hay que validarlas en proyectos reales.
Clasificadores y falsos positivos: los filtros de seguridad podrían cortar contenido legítimo por error, aunque se han reducido bastante.

🏁 Veredicto rápido

Mi impresión general, como expuse en el video, es que Claude Sonnet 4.5 representa un salto notable en capacidades para desarrolladores y usuarios exigentes. No es perfecto, pero sus avances en coherencia, herramientas integradas y alineamiento lo ponen entre los modelos más interesantes para probar hoy.