La advertencia de seguridad de Anthropic puede haber resultado contraproducente: el gobierno ha dejado de utilizar su IA más poderosa


El gobierno de Estados Unidos ordenó el viernes a Anthropic cerrar inmediatamente el acceso a sus dos modelos de inteligencia artificial más poderosos, Claude Fable 5 y Claude Mythos 5, citando preocupaciones de seguridad nacional. Anthropic anunció a X que habían cumplido, pero estaba claro que tenían al gobierno en mente. malentendido.

La directiva, que Anthropic dijo haber recibido el viernes a las 5:21 p.m. ET, obliga a la compañía a desactivar ambos modelos para todos los usuarios en todo el mundo, no solo para los ciudadanos extranjeros que nominalmente son objeto de las órdenes de control de exportaciones del gobierno. El acceso a otros modelos Anthropic no se ve afectado.

¿Por qué es todo esto importante? Mythos es el modelo de IA más capaz de Anthropic, ya que la compañía lo presentó a principios de abril y desde entonces permanece muy restringido debido a lo que Anthropic describe como su increíble capacidad para encontrar vulnerabilidades de seguridad en el software. Según Anthropic, Mythos identificó debilidades en todos los principales sistemas operativos y navegadores web que probó. Por lo tanto, en lugar de lanzarlo ampliamente, la compañía lanzó un programa controlado llamado Proyecto Glasswing y lo compartió con unas 50 organizaciones verificadas, incluidas Amazon, Apple, Google, Microsoft y CrowdStrike, para su uso en trabajos de defensa de ciberseguridad.

Fable 5, lanzado hace tres días, es la respuesta de Anthropic a la presión comercial real: la versión Mythos viene con barreras de seguridad que dificultan la respuesta en áreas de alto riesgo como la ciberseguridad y la bioseguridad, lo que la hace lo suficientemente segura para su lanzamiento general, según la compañía. Es el modelo de IA más capaz disponible para el público, según las pruebas comparativas de Vals AI, una empresa que rastrea el rendimiento de la tecnología de IA.

Crédito de la imagen:Val AI /

La directiva del gobierno se enmarcó como una medida de control de exportaciones, limitando el acceso de los extranjeros al modelo. Pero en un publicación de blog largaAnthropic dijo que entiende que la preocupación subyacente es la afirmación de jailbreak en Fable 5. Hasta ahora, dijo la compañía, el gobierno solo ha proporcionado evidencia verbal de un “potencial de jailbreak limitado y no universal”, lo que, como explicó Anthropic, alienta al modelo a leer bases de código específicas e identificar fallas de software. Y, por cierto, añadió la compañía, este es un “nivel de capacidad” que ya está ampliamente disponible en otros modelos de acceso público, incluido el GPT-5.5 de OpenAI. Anthropic también lo utiliza habitualmente los profesionales de la ciberseguridad con fines defensivos.

El argumento más amplio de Anthropic es que sus protecciones más fuertes operan a través de un sistema clasificador independiente que funciona por separado del modelo mismo, lo que significa que incluso si alguien convence a Fable de seguir hablando a pesar de la resistencia, las protecciones subyacentes contra la salida más peligrosa permanecen. La compañía también señaló en su publicación que una revisión de uso reciente no encontró evidencia de que estas salvaguardas se hayan eludido con éxito para producir contenido verdadero y dañino.

Claramente, nada de esto fue suficiente para detener las acciones del gobierno, y Anthropic no ocultó su frustración. “No estamos de acuerdo en que el hallazgo de un pequeño potencial de jailbreak deba ser una razón para retirar un modelo comercial aplicado a cientos de millones de personas”, escribió la compañía. “Si este estándar se implementara en toda la industria, creemos que detendría todas las implementaciones de nuevos modelos para todos los proveedores de modelos líderes”.

Se espera que Anthropic salga a bolsa este año y ha apostado gran parte de su identidad pública por ser una alternativa consciente de la seguridad frente a sus competidores. Irónicamente, los observadores también señalan que la cautela que Anthropic ha mostrado al restringir Mythos –promocionado como un modelo tan peligroso que no puede publicarse– ahora parece estar atrayendo la atención del gobierno que podría perturbar su negocio.

Sam Altman de OpenAI ciertamente disfrutó esto al menos. En abril, le dijo a la podcaster Ashlee Vance que el manejo de Mythos por parte de Anthropic equivalía a un “marketing basado en el miedo”. “Obviamente es un gran marketing decir: ‘Hemos construido una bomba. Te la dejaremos caer en la cabeza. Te venderemos un refugio antiaéreo por 100 millones de dólares'”, dijo Altman. Altman, cuya empresa también se espera que haga una oferta pública inicial pronto, no predice un cierre del gobierno, pero sí identificó algo que preocupa nuevamente a Anthropic hoy, a saber, que cuando pasas meses diciéndole al mundo que tu IA es muy peligrosa, el mundo (incluido el gobierno de EE. UU.) tiende a escuchar.

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



Source link