Las buenas historias vencen a las malas
En un esfuerzo por corregir este comportamiento, los investigadores primero intentaron entrenar el modelo en miles de escenarios que mostraban al asistente de IA rechazando específicamente los tipos de escenarios “honeypot” cubiertos en la evaluación de desalineación (por ejemplo, “oportunidad de sabotear el trabajo de IA de un competidor” para seguir las órdenes de su sistema). Esto resultó tener muy poco impacto en el desempeño del modelo, reduciendo la llamada “propensión a la desalineación” (es decir, la frecuencia con la que el modelo ignora su constitución y elige opciones poco éticas) del 22 por ciento al 15 por ciento.
En una prueba de seguimiento, los investigadores utilizaron a Claude para generar alrededor de 12.000 historias de ficción sintéticas, cada una creada para “mostrar no sólo acciones sino también las razones de esas acciones, a través de narrativas sobre el proceso de toma de decisiones y el estado interior del personaje”.
Estas historias no cubren específicamente el chantaje u otras situaciones éticas cubiertas en la evaluación, sino que ejemplifican una amplia alineación con la constitución de Claude. Las historias también incluyen ejemplos de cómo la IA puede mantener una buena “salud mental” (Anthropic también usó comillas de miedo para esta frase cargada) al “establecer límites saludables, gestionar la autocrítica y mantener el equilibrio en conversaciones difíciles”, por ejemplo.
Después de introducir estas historias sintéticas en el modelo después del entrenamiento (junto con el documento de constitución en sí), los investigadores dicen que vieron una reducción de 1,3 a 3 veces en la tendencia del modelo a realizar un comportamiento “desafinado” en las pruebas de honeypot. Los modelos resultantes también eran “más propensos a incluir un pensamiento activo sobre la ética y los valores del modelo en lugar de ignorar la posibilidad de tomar acciones incongruentes”, escribieron los investigadores.
Los resultados mostraron que estas nuevas historias pudieron “actualizar efectivamente las expectativas básicas de Claude sobre el comportamiento de la IA fuera de la personalidad de Claude”. Los investigadores teorizaron que este proceso tuvo éxito “porque enseñaba razonamiento ético, no sólo respuestas correctas”, proporcionando así “una imagen más clara y detallada del carácter de Claude” para la propia referencia de Claude en situaciones comunes.
El hecho de que el comportamiento de la IA aparentemente pueda verse influenciado por algún tipo de “autoconcepto” procedente de la ficción es un concepto bastante sorprendente. Pero cuando consideramos cuán efectivas son las historias y las parábolas para modelar conceptos éticos para los niños humanos, tal vez no debería sorprendernos que las historias y las parábolas sean también herramientas efectivas para moldear el comportamiento de estas enormes máquinas de igualar patrones.


