Martes antrópico Claude Fable 5 publicado públicamentesu primer modelo de “clase Mythos” pretendía superar al anterior modelo Opus líder en capacidad general. Pero el lanzamiento del modelo hoy viene con salvaguardias diseñadas para evitar que responda preguntas sobre temas como la ciberseguridad, la biología y la química, donde la compañía se ha preocupado abiertamente por su impacto potencial en los delincuentes “avanzados”.
Anthropic dice que Fable 5 opera con el “mismo modelo básico” que Mythos 5, que hoy salió de su período de meses de “Vista previa de Mythos”, pero solo para un “pequeño grupo de ciberdefensores” que consideró confiables a través de Proyectos Glasswing existentes. A diferencia de Mythos 5, Fable 5, de acceso público, está diseñado para canalizar preguntas sobre ciertos temas delicados al modelo anterior Claude Opus 4.8 y alertar a los usuarios cuando esto ocurra.
Anthropic dijo que había ajustado estas protecciones para que fueran “más estrictas que lo ideal”, lo que significa que el sistema a veces rechazaba “solicitudes inofensivas” de una manera que pensaba que podría resultar frustrante para los usuarios habituales. Pero Anthropic dijo que estos resultados falsos positivos ocurrieron en menos del cinco por ciento de todas las sesiones de prueba, y que valía la pena hacerlo para evitar situaciones en las que Mythos pudiera brindar asistencia a los malos actores para “causar daños graves que no podrían recibir de otras fuentes”.
No puedo dejar que hagas eso, Dave.
La protección basada en temas de Fable 5 se basa en esos temas un sistema clasificador diseñado para detectar ampliamente sujetos prohibidos, así como posibles intentos de jailbreak. En más de 1.000 horas de pruebas del equipo rojo con el programa de recompensas por errores, Anthropic dijo que el equipo externo no pudo encontrar un jailbreak universal para Fable 5. El nuevo modelo también resistió los intentos de jailbreak automático a un ritmo mucho mayor que los modelos anteriores de Claude Opus, dijo Anthropic.
La compañía dijo que estaba particularmente preocupada por la capacidad del Mythos 5 para realizar “piratería de agentes”, que lleva a cabo ciberataques de varias partes con más facilidad que los modelos anteriores. Pero las pruebas realizadas por el Instituto de Seguridad de IA del Reino Unido en los últimos meses encontraron que Mythos Preview funcionó de manera similar a OpenAI GPT-5.5 en una serie de desafíos de Capture the Flag, lo que sugiere que el desempeño de Mythos no fue un “avance especial para un modelo”.



