Anthropic se disculpa por la barandilla invisible de Claude Fable


Anthropic se disculpó por limitar en secreto su nuevo modelo de IA, Claude Fable 5, con barreras de seguridad ocultas que desanimaron a los investigadores y competidores que lo utilizaron para desarrollar sistemas competitivos. La compañía dice que está cambiando de rumbo y será más transparente sobre cuándo entrarán en vigencia las restricciones, incluso si eso significa que Fable está respondiendo más preguntas.

Fable es el primer modelo ampliamente disponible en el sistema de inteligencia artificial clase Mythos de Anthropic, un grupo sobre el cual la compañía ha estado advirtiendo durante meses que es demasiado peligroso para revelarlo al público. Anthropic dijo que había abordado algunos de esos riesgos al lanzar Fable con salvaguardas que le impedían responder a ciertas preguntas de “alto riesgo”. Una de las áreas antrópicas. dicho Lo que limitará la respuesta de Fable es la destilación, una técnica para entrenar un modelo de IA más pequeño utilizando la salida de un modelo más grande.

En el Tarjeta del sistema Fable (un documento público publicado por desarrolladores de IA para explicar cómo funciona el sistema) Anthropic dijo que manejaría las preguntas que cree que son esfuerzos de destilación modificando y degradando las respuestas del modelo directamente. No se notificará a los usuarios que han activado una acción de seguridad ni se les informará que su respuesta ha cambiado.

antrópico dicho ahora está cambiando su enfoque de destilación: las consultas ahora volverán a Claude Opus 4.8, el modelo insignia anterior de Anthropic, dijo la compañía en una publicación en X. Anthropic también les dirá claramente a los usuarios: “Verán esto cada vez que suceda”.

Esto es similar a cómo Fable maneja las consultas en otras áreas de alto riesgo. Cuando se activan funciones de seguridad en áreas como la biológica, química y la ciberseguridad, las preguntas se redirigirán a través de Opus 4.8, a menos que la función se bloquee directamente en función de normas de seguridad más amplias de la empresa, como aquellas que cubren drogas, armas u otro contenido prohibido. En algunos casos, particularmente en biología, las salvaguardas han sido calibradas tan ampliamente que Fable es prácticamente inutilizable incluso para preguntas básicas, algo que Anthropic reconoció en sus comentarios a Borde.

“Las salvaguardias visibles están sujetas a escrutinio, por lo que deben ser sólidas, y esto llevará tiempo mejorar”, escribió Anthropic. “Las salvaguardas invisibles pueden tener objetivos más específicos, lo que nos permite ofrecer resultados rápidamente con muy pocos falsos positivos. Usamos salvaguardias invisibles por este motivo, y es una compensación falsa. Usted debe tener visibilidad de las salvaguardas que tenemos implementadas y por qué. Pedimos disculpas por no lograr el equilibrio adecuado”.

Los cambios seguirán reacción de la comunidad de investigación de IA sobre la decisión de Anthropic de restringir silenciosamente a los usuarios sospechosos de intentar filtrar Fable en el modelo de un competidor, una advertencia que los críticos advierten que también podría afectar a terceros que intentan evaluar el modelo de frontera. En su tarjeta de sistema, Anthropic dijo que la capacidad de los nuevos modelos para acelerar el desarrollo de la IA justificaba centrarse en tales solicitudes, afirmando que “usar Claude para desarrollar modelos competitivos ya viola nuestros Términos de servicio”. Anthropic ha acusado anteriormente a competidores chinos como DeepSeek de filtrar injustamente sus modelos a escala “industrial”.



Source link