Cuando las capacidades de los agentes de entrega se convirtieron en algo en juego entre las empresas de modelos básicos, Anthropic lanzó el Claude Sonnet 5, una versión más poderosa y de agente del modelo de laboratorio de rango medio.
“Puede planificar, utilizar herramientas como navegadores y terminales, y ejecutarse de forma autónoma a un nivel que, hace apenas unos meses, requería modelos más grandes y caros”, dijo Anthropic en una publicación de blog.
El encuadre refleja lo que OpenAI y Google han dicho sobre sus últimos lanzamientos. GPT-5.6 Sol de OpenAI se lanzó en versión preliminar la semana pasada y también es el modelo más agente de la compañía, lo que permite a los usuarios dividir el trabajo entre subagentes para tareas autónomas más largas. Google Gemini 3.5 Flash, que se lanzó en mayo, se propuso como un cambio de chatbots conversacionales a herramientas de agentes que planifican, construyen e iteran sobre el trabajo real con una mínima participación humana.
La oferta de Sonnet 5 es la confirmación de que la capacidad de los agentes es la nueva expectativa básica en todos los niveles de precios. Ahora la diferencia no es quién puede hacer bien el trabajo de un agente, sino qué tan barato puede hacerlo y qué tan confiables son sin supervisión humana.
El Sonnet 5 promete un rendimiento cercano al Opus 4.8, pero a un coste mucho menor. A partir del martes, Claude Sonnet 5 será el modelo predeterminado para los planes gratuito y Pro y estará disponible para todas las suscripciones.
En el lanzamiento, Sonnet 5 tiene un precio de 2 dólares por millón de tokens de entrada y 10 dólares por millón de tokens de salida hasta el 31 de agosto, después de lo cual el precio aumentará a 3 dólares por millón de tokens de entrada y 10 dólares por millón de tokens de salida. Eso hace que el Sonnet 5 sea más barato que el Opus 4.8, así como el GPT-5.5 de OpenAI y el Gemini 3.1 Pro de Google. (Aún es más caro que el Gemini 3.5 Flash).
El nuevo modelo también muestra mejoras significativas con respecto a su predecesor Sonnet 4.6, que se lanzó en febrero, en términos de rendimiento del agente, como razonamiento, uso de herramientas, codificación de software y trabajo de conocimiento, según Anthropic.
Por ejemplo, en un punto de referencia, Sonnet 5 obtuvo una puntuación del 63,2 % en codificación de agentes, en comparación con Opus 4.8 con un 69,2 % y Sonnet 4.6 con un 58,1 %. En los puntos de referencia del trabajo del conocimiento, Sonnet 5 en realidad superó ligeramente a Opus 4.8, que es conocido por sobresalir en la resolución de los problemas más difíciles, como la toma de decisiones sutiles y la investigación profunda.
“Opus 4.8 sigue siendo el modelo elegido para una mayor precisión en estas tareas, pero Sonnet 5 ofrece a los desarrolladores una opción a un precio más bajo y una calidad mucho mayor que la disponible anteriormente”, dijo Anthropic. “Entre Sonnet 5 y Opus 4.8, los usuarios pueden ajustar el nivel de esfuerzo para encontrar el equilibrio adecuado entre costo y rendimiento”.
Según los evaluadores citados en la publicación del blog, el Sonnet 5 también destaca por completar tareas complejas en las que las versiones anteriores del modelo se detenían y “verificaban su propio resultado sin que se les pidiera explícitamente que lo hicieran”.
“Le dimos a Claude Sonnet 5 un trabajo de dos partes (actualizar el nivel de cuenta de Salesforce, enviar un anuncio de lanzamiento a los contactos de la empresa) y se completó a fondo”, dijo Daniel Shepard, ingeniero senior de Zapier, en un comunicado. “Por lo general, esto se detiene a la mitad. Para la automatización diaria, es una obviedad”.
En términos de seguridad, Sonnet 5 también exhibe niveles más bajos de “comportamiento indeseable”, como colaboración con abuso y fraude, que su predecesor, lo que lo hace más seguro de usar en el contexto de una agencia. Es mejor rechazar solicitudes maliciosas y evitar intentos de secuestro en ataques de inyección rápida. También alucina y adopta un comportamiento adulador en menor medida que en el Soneto 4.6.
Dicho esto, no está al mismo nivel que Opus 4.8 y Claude Mythos Preview en términos de comportamiento incongruente. “Las evaluaciones también muestran que su capacidad para realizar tareas peligrosas de ciberseguridad es mucho menor que la de nuestro modelo Opus actual”, decía la publicación del blog.
El cofundador de Lovable, Fabian Hedin, dijo en un comunicado que Claude Sonnet 5 “rechaza solicitudes inseguras de manera limpia y consistente”.
“En Lovable, ponemos herramientas poderosas en manos de millones de constructores”, dijo Hedin. “Un modelo que sabe cuándo decir no es tan importante como un modelo que sabe cómo construirlo”.
Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



