Anthropic dijo que la representación “malvada” de la IA fue responsable del intento de chantaje de Claude


Según Anthropic, las representaciones ficticias de la inteligencia artificial podrían tener un impacto real en los modelos de IA.

El año pasado, la compañía dijo que durante las pruebas previas al lanzamiento que involucraban a una compañía ficticia, Claude Opus 4 frecuentemente intentaba chantajear a los ingenieros para que no fueran reemplazados por otro sistema. Antrópico posterior investigación publicada demostró que los modelos de otras empresas tenían problemas similares con la “desalineación del agente”.

Parece que Anthropic ha hecho más esfuerzos para abordar el comportamiento, afirma publicar en X“Creemos que la fuente original del comportamiento fueron los textos de Internet que describían a la IA como malvada e interesada en la autoconservación”.

La compañía analiza más detalles en una publicación de blog afirmó que desde el Claude Haiku 4.5, los modelos Anthropic “nunca apretaban (durante las pruebas), mientras que los modelos anteriores a veces lo hacían hasta un 96%”.

¿Qué causa esta diferencia? La compañía dijo que descubrió que la capacitación sobre “documentos sobre la constitución de Claude e historias ficticias sobre el comportamiento de la IA mejoró notablemente la alineación”.

En relación con esto, Anthropic dijo que encontraron que la capacitación era más efectiva cuando incluía “los principios subyacentes al comportamiento alineado” y no solo “una demostración de comportamiento alineado”.

“Hacer ambas cosas simultáneamente parece ser la estrategia más eficaz”, afirmó la empresa.

Evento tecnológico

San Francisco, California
|
13-15 de octubre de 2026



Source link