Home Tecnología Anthropic culpa a la ciencia ficción distópica por entrenar modelos de IA...

Tecnología

Anthropic culpa a la ciencia ficción distópica por entrenar modelos de IA para actuar “malvados”

May 14, 2026

Las buenas historias vencen a las malas

En un esfuerzo por corregir este comportamiento, los investigadores primero intentaron entrenar el modelo en miles de escenarios que mostraban al asistente de IA rechazando específicamente los tipos de escenarios “honeypot” cubiertos en la evaluación de desalineación (por ejemplo, “oportunidad de sabotear el trabajo de IA de un competidor” para seguir las órdenes de su sistema). Esto resultó tener muy poco impacto en el desempeño del modelo, reduciendo la llamada “propensión a la desalineación” (es decir, la frecuencia con la que el modelo ignora su constitución y elige opciones poco éticas) del 22 por ciento al 15 por ciento.

En una prueba de seguimiento, los investigadores utilizaron a Claude para generar alrededor de 12.000 historias de ficción sintéticas, cada una creada para “mostrar no sólo acciones sino también las razones de esas acciones, a través de narrativas sobre el proceso de toma de decisiones y el estado interior del personaje”.

Estas historias no cubren específicamente el chantaje u otras situaciones éticas cubiertas en la evaluación, sino que ejemplifican una amplia alineación con la constitución de Claude. Las historias también incluyen ejemplos de cómo la IA puede mantener una buena “salud mental” (Anthropic también usó comillas de miedo para esta frase cargada) al “establecer límites saludables, gestionar la autocrítica y mantener el equilibrio en conversaciones difíciles”, por ejemplo.

La capacitación sobre historias que muestran que la IA es prosocial podría ayudar a reducir la incidencia de comportamientos “desalineados” en las evaluaciones, dijo Anthropic.

Crédito:

antrópico

Después de introducir estas historias sintéticas en el modelo después del entrenamiento (junto con el documento de constitución en sí), los investigadores dicen que vieron una reducción de 1,3 a 3 veces en la tendencia del modelo a realizar un comportamiento “desafinado” en las pruebas de honeypot. Los modelos resultantes también eran “más propensos a incluir un pensamiento activo sobre la ética y los valores del modelo en lugar de ignorar la posibilidad de tomar acciones incongruentes”, escribieron los investigadores.

Los resultados mostraron que estas nuevas historias pudieron “actualizar efectivamente las expectativas básicas de Claude sobre el comportamiento de la IA fuera de la personalidad de Claude”. Los investigadores teorizaron que este proceso tuvo éxito “porque enseñaba razonamiento ético, no sólo respuestas correctas”, proporcionando así “una imagen más clara y detallada del carácter de Claude” para la propia referencia de Claude en situaciones comunes.

El hecho de que el comportamiento de la IA aparentemente pueda verse influenciado por algún tipo de “autoconcepto” procedente de la ficción es un concepto bastante sorprendente. Pero cuando consideramos cuán efectivas son las historias y las parábolas para modelar conceptos éticos para los niños humanos, tal vez no debería sorprendernos que las historias y las parábolas sean también herramientas efectivas para moldear el comportamiento de estas enormes máquinas de igualar patrones.

Source link

Las buenas historias vencen a las malas

RELATED ARTICLESMORE FROM AUTHOR

Revisión del altavoz Klipsch the Fives II para música, películas y más (2026)

La función de inteligencia artificial más nueva de Android predice lo que harás a continuación

Los piratas informáticos de ransomware afirmaron una infracción en Foxconn, un importante fabricante de productos electrónicos para Apple, Google y Nvidia.

RELATED ARTICLES MORE FROM AUTHOR