El lanzamiento estrictamente controlado de Claude Mythos por parte de Anthropic ha dado un giro incómodo. Después de semanas de insistir en que los modelos de IA son tan capaces en ciberseguridad que son demasiado peligrosos para hacerlos públicos, parece que han caído en las manos equivocadas.
De acuerdo a BloombergUn “pequeño grupo de usuarios no autorizados” ha tenido acceso a Mythos -cuya existencia se reveló por primera vez en una filtración- desde que Anthropic anunció planes de ofrecerlo a un grupo selecto de empresas para que lo probaran. Anthropic dijo que está investigando. Esta es una mirada aproximada a una empresa que ha construido su marca tomando en serio la seguridad de la IA mientras promociona la destreza en ciberseguridad de sus últimos modelos.
Desde una perspectiva tecnológica, el ataque de Mythos es muy sencillo. Bloomberg informó que el grupo accedió a Mythos haciendo “una suposición fundamentada sobre la ubicación en línea del modelo”, utilizando información sobre otros modelos Anthropic expuestos en la infracción de Mercor – una empresa que crea datos de entrenamiento de IA – junto con el acceso que tenía un miembro a través de un contrato de trabajo que evaluaba modelos Anthropic. El grupo obtuvo acceso no autorizado a los Mitos a través de una combinación de conocimiento interno y conjeturas afortunadas, no de explotación tecnológica avanzada o robo de modelos al por mayor.
Las vulnerabilidades de seguridad son inevitables y fue Mercor, no Anthropic, quien reveló la información que los piratas informáticos utilizaron para adivinar la ubicación de Mythos. Pia Hüsch, investigadora del grupo de expertos británico Royal United Services Institute (RUSI), me dijo que ninguna empresa es completamente segura y que los humanos suelen ser los más débiles, aunque “al principio me pareció un poco afortunado” que no hubiera consecuencias graves.
Anthropic no pudo anticipar un fracaso “completamente concebible”
Pero no es del todo mala suerte. Este tipo de conjetura inteligente es una técnica de piratería muy estándar, y la infracción de Mercor se conocía antes del lanzamiento de Mythos. El investigador de seguridad Lukasz Olejnik me describió esto como un fracaso “imaginable” al que la industria de la ciberseguridad se ha enfrentado habitualmente durante los últimos 20 años. Entonces Anthropic debería haberlo anticipado y debería haber estado preparado, especialmente sabiendo que su información había sido comprometida.
Anthropic también parece tener los medios para descubrir tales violaciones. La empresa pudo “registrar y rastrear el uso del modelo”, dijo Olejnik, lo que permitió detener el acceso no autorizado o malicioso, especialmente porque se suponía que el lanzamiento de Mythos sería muy limitado. Aparentemente, Anthropic no lo estaba monitoreando lo suficientemente de cerca y, considerando lo peligroso que es el modelo, es razonable preguntarse por qué.
Por cortesía de Bloomberg Sin embargo, el grupo no utilizó Mythos para tareas de ciberseguridad, en parte porque sólo querían jugar con el nuevo modelo y en parte porque hacerlo podría molestar a Anthropic. Si el mensaje de Anthropic sobre Mythos se toma en serio, es un golpe de suerte. la empresa tiene enmarcado Mythos llamó un “momento decisivo para la seguridad”, afirmando que encontró vulnerabilidades en “todos los principales sistemas operativos y navegadores web”, y dijo que su implementación debería coordinarse para dar tiempo a “fortalecer las defensas cibernéticas del mundo”.
Anthropic tiene la costumbre de utilizar un lenguaje dramático y alarmista que dificulta interrogar con claridad, incluso provocando la idea de que su modelo Claude podría estar consciente. Aun así, los informes iniciales de las partes con acceso indican que Mythos está altamente capacitado en ciberseguridad. El CTO de Mozilla, Bobby Holley, dijo que encontró cientos de errores en Firefox 150 y que finalmente podría darles a los defensores la oportunidad de lograr una victoria completa sobre los atacantes. No sorprende que el gobierno y instituciones financieras el mundo entero está ansioso por conseguirlo. Según se informa, la NSA y otras agencias estadounidenses tuvieron acceso a pesar de que Anthropic había sido designado como un riesgo para la cadena de suministro, aunque hasta ahora el lanzamiento parece haber pasado por alto a la agencia de ciberseguridad estadounidense CISA.
“Anthropic afirma estar a la vanguardia de toda esta tecnología, pero también se posiciona como un actor responsable en todo esto”.
El hecho de que la violación fuera revelada por un periodista y no por Anthropic también plantea la pregunta obvia de si se trató de un incidente aislado. Esto “realmente ilustra cuán amplio es el círculo de personas que podrían hacer esto, incluso si no cuentan con medios muy avanzados técnicamente”, dijo Hüsch. Es probable que Anthropic revise su cadena de suministro para ver cómo se desarrolla esto y cerrar la brecha, pero dijo que hay muchos actores que quieren acceder a este tipo de modelo, algunos de los cuales tienen mucho dinero. No hay razón para suponer que otros que obtengan acceso estarán tan restringidos como ese grupo. Bloomberg informó.
Anthropic, hasta cierto punto, se ha disparado en el pie. La empresa ha construido su identidad tomando la seguridad de la IA más en serio que sus competidores, creando expectativas extremadamente altas para su modelo de seguridad que desmienten su imprudencia; el hecho de que Mythos se desarrolle a través de un fracaso fundamental y predecible sólo subraya ese punto. Peor aún, al tratar a Mythos como una herramienta increíblemente poderosa y demasiado peligrosa para hacerla pública, Anthropic lo convirtió en un objetivo obvio, ya sea para actores maliciosos o piratas informáticos que simplemente buscaban un desafío.
Este ni siquiera es el primer incidente de seguridad incómodo en Mythos. La existencia del modelo fue revelada accidentalmente antes de su lanzamiento a través de “conjuntos de datos inseguros” en un sistema central que contiene contenido para su sitio web. Ahora, se ha accedido secretamente a ese modelo a través de una vulnerabilidad completamente predecible que Anthropic no pensó en parchar. La perfección es imposible, pero para una empresa que se ha establecido como la vanguardia de la seguridad de la IA, un error tan fundamental es difícil de justificar, incluso con la mala suerte que ha tenido.
Para Hüsch, todo el episodio se puede resumir en una palabra: humillación. “Anthropic afirma estar a la vanguardia de toda esta tecnología, pero también se posiciona como un actor responsable en todo esto”, afirmó. “El hecho de que ahora se haya accedido tan rápidamente a través de medios no autorizados y mediante esfuerzos poco sofisticados es verdaderamente un insulto para ellos”.



