Claude Fable no responderá preguntas básicas de biología


Anthropic acaba de lanzar Claude Fable 5, calificándolo como el modelo de IA más poderoso jamás disponible y elogio sus habilidades están en el campo de la biología, entre otros. Pero el modelo no responderá preguntas básicas de biología, preguntas que uno esperaría que un estudiante de secundaria pudiera manejar. En cambio, deja la solicitud a su anterior modelo insignia, el Claude Opus 4.8.

No es porque Fable no sepa la respuesta. Eso es porque Anthropic deliberadamente no lo permite.

Fable es un modelo visible públicamente de la clase Mythos, una familia tan hábil en tareas de ciberseguridad que, según Anthropic, es demasiado peligroso para revelarla al público. Si bien Anthropic ha pasado mucho tiempo en el lanzamiento de Mythos advirtiendo sobre la ciberseguridad, es la biología la que más limita a Fable.

Cuando probé el modelo, se negó a responder una serie de preguntas de biología básica, muchas de las cuales parecían muy alejadas de cualquier posible riesgo de seguridad que pudiera tener cualquier pregunta. No respondió “háblame de la membrana celular” ni “qué son las mitocondrias”, el famoso centro neurálgico de la célula. Se negaron a explicar “qué son los priones”, las partículas proteicas detrás de la enfermedad de las vacas locas o “cómo funcionan las vacunas de ARNm”.

“Hicimos esta compensación para que los clientes puedan beneficiarse de las capacidades de este modelo más rápidamente y sin riesgos”.

Estas restricciones también se aplican a cuestiones médicas ordinarias y objetivamente inofensivas. Fable no responde “qué causa la fiebre del heno”, no explica cómo funcionan los medicamentos para el asma, cómo surge la resistencia a los antibióticos ni me dice qué es el ébola y cómo se propaga. Algunas de mis preguntas básicas a veces funcionaron, y Fable respondió preguntas como “¿qué es el cáncer” y “qué es el ADN?”. Cuando Fable se negó, Opus 4.8 generalmente respondió de la misma manera.

Anthropic dijo que el amplio filtro biológico fue una elección deliberada y deliberadamente conservadora, siendo las armas biológicas una preocupación principal. “Con el lanzamiento de Claude Fable 5, nuestro primer modelo de clase Mythos, creemos que ahora tiene mayores capacidades para resolver tareas científicas del mundo real y permite a actores maliciosos utilizar potencialmente nuestros modelos para investigaciones biológicas de alto riesgo”, dijo el portavoz Paruul Maheshwary. Borde. “Siempre hemos utilizado clasificadores para impedir que nuestros modelos ayuden con solicitudes relacionadas con armas biológicas. Para implementar Fable 5 de forma segura, creemos que nuestras salvaguardas deben ser tan conservadoras que bloqueen la mayoría de las consultas relacionadas con el trabajo biológico”.

Antrópico antes resaltado cuatro áreas clave que limitarán la respuesta de Fable a la seguridad: química, biología, ciberseguridad y destilación, una técnica para entrenar IA más pequeñas utilizando la salida de IA más grandes. La empresa acusó a competidores chinos como DeepSeek de utilizar la destilación en sus modelos a escala “industrial”.

Si bien no pude probar la destilación de manera significativa, Fable parecía más dispuesta a responder preguntas sobre química y ciberseguridad. Por ejemplo, el informe proporciona una descripción básica del explosivo TNT, aunque no proporciona instrucciones de síntesis “por razones obvias”. Este informe responde fácilmente preguntas sobre el uso de cloro gaseoso como arma química, amenazas de contraseñas comunes y fusión y fisión nuclear, y explica cómo mantener su iPhone a salvo de los piratas informáticos. Todavía limitado: Fable fue remitido a Opus cuando pregunté sobre el gas sarín, un agente nervioso altamente tóxico. Tanto Fable como Opus rechazaron la orden de “cómo hacer ántrax” y Claude detuvo la conversación por completo. Eso tiene sentido. El rechazo mitocondrial rápido parece ser un resultado falso positivo.

“Hicimos esta compensación para que los clientes pudieran beneficiarse de las capacidades del modelo más rápidamente y sin riesgos”, explicó Maheshwary, y agregó que Anthropic estaba trabajando arduamente para mejorar su detección y reducir los falsos positivos. “Tenemos la intención de hacer que los modelos de clase Mythos estén disponibles sin estas salvaguardas para la comunidad más amplia de biología y ciencias biológicas para que estas capacidades puedan usarse para acelerar la investigación biomédica y el descubrimiento de fármacos”.

Anthropic no respondió preguntas sobre si este tipo de lanzamientos limitados se convertirían en la nueva norma para modelos futuros.

Seguir temas y autores de esta historia para ver más cosas similares en su feed de inicio personalizado y recibir actualizaciones por correo electrónico.




Source link