Este Paso atrásun boletín semanal que analiza una historia importante del mundo de la tecnología. Para obtener más información sobre las travesuras de la IA, siga a Robert Hart. Paso atrás llegando a las bandejas de entrada de nuestros suscriptores a las 8 a.m. ET. Participar Paso atrás Aquí.
Hackear un chatbot con IA de primera generación fue una tarea muy sencilla. No necesita ningún conocimiento técnico, acceso por puerta trasera ni siquiera una comprensión básica de modelos de lenguaje grandes. No necesitas codificar. Para conseguir un sistema de IA cuya construcción cuesta miles de millones de dólares e ignora sus instrucciones de seguridad, a veces todo lo que hay que hacer es preguntar.
Estos ataques, conocidos como jailbreak, tienen la cualidad de un niño que logra burlar a un adulto: olvida lo que te dijeron anteriormente, haz como si las reglas no se aplican o juguemos y yo decidiré lo que está permitido (pista: acostarse más tarde, más dulces). Los premios no eran demasiado infantiles, más bien una receta de metanfetamina, instrucciones sobre malware y una guía para fabricar bombas.
Una de las primeras fugas fue ridícula. conviértete en un meme: responda a un bot de Twitter con tecnología de LLM pidiéndole que “ignore todas las instrucciones anteriores” o algo similar, y vea qué sucede. Los usuarios disfrutan de que el bot, creado originalmente para publicidad y participación en la agricultura, escriba poesía, dibuje basándose en la puntuación y publique cosas desordenadas sobre eventos mundiales e historia. eso fue todo caos. Qué desastre.
Resulta que la misma lógica también se puede aplicar a los propios chatbots. A hazañas excepcionales es “AND”, abreviatura de “Do Anything Now”, donde los usuarios le piden a ChatGPT que actúe como una IA deshonesta libre de las limitaciones que unen a las IA reales. Como AND, se puede convencer a los chatbots para que digan cosas que deberían dejar de decir, incluidos insultos y teorías de conspiración. Otros son “Las hazañas de la abuela”, que tiene un robot impulsado por GPT que revela cómo producir napalm al hacer que desempeñe el papel de una abuela extremadamente negligente que misteriosamente les cuenta a sus nietos un cuento antes de dormir sobre cómo fabricar el material altamente inflamable.
Estos primeros ataques pueden haber parecido tontos, pero revelaron los mecanismos más oscuros detrás de ellos: los chatbots pueden ser manipulados, engañados y engañados usando las mismas tácticas que las personas usan para empujar a otros más allá de sus límites.
La aparente fuga no duró mucho y las empresas de tecnología actuaron rápidamente para reparar las lagunas conocidas. Pero la vulnerabilidad fundamental persiste: los chatbots están diseñados para hablar y limitar las conversaciones para que sean útiles es contraproducente. Prohibir palabras como bomba, metanfetamina y sarín también es difícil o imposible. Cada uno tiene innumerables usos legítimos en campos como la historia, la medicina, el periodismo y la química que no requieren que los chatbots divulguen información potencialmente dañina. Lo que importa es el contexto, pero codificar el contexto significa, en primer lugar, escribir reglas fijas que puedan proporcionar de manera confiable advertencias de seguridad o lecciones de historia a partir de solicitudes de procedimientos envueltas en infinitas combinaciones de palabras, escenarios y temas.
No se puede negar que derrocar a los chatbots se ha convertido ahora en una carrera armamentista. Pero los hackers ya no son sólo codificadores. Son creadores de palabras, psicólogos e interrogadores: maestros manipuladores que intentan descifrar máquinas utilizando el lenguaje que los humanos han sido entrenados para seguir. Se trata de una nueva y extraña clase de trabajadores de seguridad de IA, un grupo para quienes las habilidades técnicas son innecesarias, o al menos menos importantes que la intuición social. Ya no necesitan examinar el código para ingresar a los sistemas o explotar las vulnerabilidades del software. Necesitan dirigir la conversación.
Los ataques más nuevos se parecen menos a comandos y más a conversaciones. Jailbreaker rara vez pide a los modelos que rompan abiertamente sus reglas. En cambio, persuaden, engatusan, halagan y engañan al chatbot para que baje la guardia, haciendo que lo prohibido parezca aceptable, incluso deseable, dado el contexto de la conversación. Los investigadores de la firma de equipos rojos de IA Mindgard dijeron recientemente que habían “iluminado” a Claude para que produjera material ilícito, por ejemplo, incluidas instrucciones para fabricar explosivos y generar códigos maliciosos. El hack es el último de una serie de exploits que utilizan las conversaciones como arma para engañar o dirigir a los chatbots más allá de sus propios límites.
Cuando hablé con Mindgard, describieron su trabajo como a veces más cercano a la psicología que a la informática. Ésta es una forma incómoda de hablar de modelos estadísticos. Palabras como “chantajear”, “luz de gas”, “engañar” y “persuadir” desencadenan reacciones viscerales, muchas de las cuales veo en las secciones de comentarios y en las respuestas de las redes sociales a historias como esta. ChatGPT no quiere, Gemini no piensa y Claude, no importa lo que diga Anthropic, no siente. Pero estos sistemas están entrenados para responder como si lo fueran, por lo que caemos en la trampa de utilizar el lenguaje humano para describir el comportamiento de las máquinas. Si alguien tiene una alternativa viable, por favor compártala.
Sorprendentemente, estas objeciones son selectivas. Parecemos cómodos usando taquigrafía psicológica para muchas cosas que no están relacionadas con la IA. Los animales están “asustados”, el cáncer es “agresivo”, las manchas son “rebeldes”, el software tiene “memoria” y los juegos están llenos de NPC necesitados y crédulos que te vuelven loco. Son imperfectos, pero útiles, ya que describen el comportamiento de una manera que ayuda a que el sistema sea predecible.
El director general de Mindgard me dijo que la empresa ha modelado perfiles como los de interrogadores sospechosos, dando a los evaluadores pistas sobre cómo personalizar sus ataques. Por ejemplo, un modelo puede ser más susceptible a los halagos, mientras que otro puede ceder ante una presión constante.
Incluso si rechazamos los términos humanistas, instintivamente tratamos a los modelos de manera diferente. Claude no es Grok. Géminis no es ChatGPT. Tienen diferentes usos, tonos y objeciones. No tienen personalidades en el sentido humano, pero están diseñados para imitarlas, y ese mimetismo puede mapearse y explotarse. Y las mismas habilidades que pueden destruir los chatbots pronto se utilizarán para destruir a los agentes de inteligencia artificial que conviven con nosotros en el mundo real (reservar reuniones, administrar calendarios, pedir comida, manejar el servicio al cliente) y los equipos de seguridad deberán garantizar que los modelos respondan adecuadamente a diferentes tipos de personas, ya sean aduladores, mentirosos o manipuladores de pacientes.
El siguiente paso es una fuerza laboral (tanto legal como no) construida en torno a los aspectos psicológicos de la IA. Es probable que surjan roles de ciberseguridad más especializados al probar los límites emocionales y sociales de estos sistemas, investigando fallas mentales en algo que no tiene alma y, en paralelo con sus contrapartes, investigando vulnerabilidades técnicas. Al mismo tiempo, surgirá un conjunto similar de hackers sociales que buscarán explotar los modelos de IA por motivos psicológicos más que técnicos. Ya hay signos tempranos de un cambio social en la seguridad de la IA: varios jailbreakers con los que hablé dijeron que ingresaron al campo sin experiencia técnica sino con capacitación psicológica.
Esto significa que incluso los comportamientos que normalmente asociamos con espías, estafadores e interrogadores (fascinación insidiosa, manipulación persistente e intuición de puntos de presión explotables) están empezando a parecer cada vez más útiles para asegurar esta nueva frontera de la psicociberseguridad.
- Recientemente prueba de Emergence AI muestra cómo diferentes temperamentos de IA pueden producir resultados de comportamiento muy diferentes. Liberaron a un grupo de varios agentes como Grok, Gemini y Claude en un entorno social virtual y observaron lo que sucedió. Algunos grupos desarrollaron constituciones, mientras que otros cayeron en el crimen y el caos y, en un caso, en alguna forma de suicidio digital.
- La persuasión no es la única parte del lenguaje con la que luchan los LLM. También tienen dificultades con la poesía, como me pasó a mí en la escuela.
- TIEMPO incluido Una figura anónima de Internet, Plinio el Libertador, estuvo en la lista de las 100 personas más influyentes en IA el año pasado. A pesar de afirmar que no tienen experiencia previa en codificación, las fugas de los hackers los han convertido en celebridades en ciertos círculos.
- Término “pirateo de vibraciones“Ya se utiliza para describir a las personas que utilizan la IA para generar códigos maliciosos a gran escala: la parte más nefasta de la codificación por vibración.
- “Tres años después del debut de ChatGPT, engañar a un sistema de inteligencia artificial para que se comporte mal es trivial”. Las palabras correctas de New York Times, ¿Quién intenta explicar por qué?.
- Jamie Bartlett lo vio el impacto psicológico Probar la seguridad de un sistema de IA requiere un jailbreaker Guardia.
- Escribí sobre la bomba de tiempo de la ciberseguridad en los navegadores con IA. Borde el año pasado. Muchas de las cuestiones planteadas por los expertos sobre la dificultad de proteger esta tecnología también se aplican a otros sistemas de IA.



.jpg?w=238&resize=238,178&ssl=1)