Después de asustar a Trump para que realizara pruebas de seguridad, el modelo Anthropic AI se lanzó a nivel mundial

Compensación: Fable 5 puede bloquear tareas rutinarias de codificación

El 12 de junio, el Departamento de Comercio ordenó a Anthropic cerrar el acceso a sus modelos más avanzados a cualquier persona fuera de Estados Unidos. La orden surgió por la preocupación de que China, Rusia u otros países de interés explotaran el modelo para atacar la infraestructura estadounidense, como la red eléctrica o el sistema bancario. En respuesta, Anthropic cerró todos los accesos, ya que no tenía forma de bloquear usuarios por país.

En particular, Mythos es visto como “muy atractivo para los malos actores que buscan abusar de él en ataques cibernéticos”, afirmó el blog Anthropic. Según Anthropic, el modelo “puede usarse para encontrar y explotar vulnerabilidades de software de manera más efectiva que cualquier otro modelo, y todos, excepto los expertos en seguridad humana más capacitados”, y sus “tremendas capacidades de ciberseguridad” pueden usarse contra Estados Unidos.

Fable 5 tiene “el mismo modelo básico”, dijo Anthropic, pero a diferencia de Mythos 5, “no proporciona ninguna capacidad ofensiva única”. Diseñado para el público en general, Fable 5 ya tiene las protecciones más fuertes que Anthropic haya aplicado a un modelo, y Anthropic dice que esas protecciones ahora son aún más fuertes antes del cambio.

Después de semanas de pruebas, Fable 5 ya no es vulnerable a un método de derivación descubierto por investigadores de Amazon que identificó varias vulnerabilidades de software y desencadenó restricciones a la exportación. Lo más preocupante, dijo Anthropic, fueron los casos en los que el modelo fue manipulado para producir código que mostraba cómo se podía explotar la vulnerabilidad.

Según Anthropic, las pruebas confirmaron que los modelos competidores menos sofisticados en el mercado, como el GPT-5.5 y el Kimi K2.7, “pueden identificar las mismas vulnerabilidades que el Fable 5 en el informe”. Esto confirma que “las técnicas informadas no revelan capacidades cibernéticas únicas a nivel de Mythos”, dijo Anthropic, y “sólo implican un trabajo de ciberseguridad defensiva de rutina”.

“Sin embargo, actuamos rápidamente para abordar los informes sobre el desvío”, escribió Anthropic. Ese método de jailbreak está actualmente bloqueado en más del 99 por ciento de los casos, dijo Anthropic. Sin embargo, el refuerzo de la seguridad conlleva una “compensación” que puede provocar que algunos comandos inofensivos se bloqueen “durante las tareas rutinarias de codificación y depuración”, reconoció la empresa.



Source link