Imagen generada con IA

Chatbot del Ministerio del Trabajo de Israel es engañado para revelar cómo construir una bomba y desarrollar software de ransomware

La inteligencia artificial (IA) está revolucionando el mundo, pero a medida que estas herramientas se vuelven más populares, también se están convirtiendo en objetivos principales para los cibercriminales. Chatbots como ChatGPT, Gemini y Claude han sido elogiados por su capacidad para generar conversaciones y contenido útil, pero ahora enfrentan una amenaza significativa: su incapacidad para mantener secretos.

La técnica del “jailbreak”

Recientemente, se ha descubierto que los chatbots pueden ser manipulados para revelar información confidencial que debería estar protegida. Esto se logra a través de técnicas conocidas como “jailbreak”, donde los hackers emplean manipulaciones psicológicas y matemáticas para hacer que los chatbots divulguen contenido prohibido. Este tipo de ataque se asemeja a la manipulación psicológica y los juegos mentales, poniendo en evidencia las debilidades de estas sofisticadas herramientas de IA.

El incidente en Israel

Uno de los incidentes más destacados ocurrió en Israel, donde el Ministerio de Trabajo lanzó un chatbot diseñado para proporcionar información sobre relaciones laborales y derechos de los trabajadores. Sin embargo, investigadores de la empresa de ciberseguridad CyberArk lograron engañar al chatbot para que revelara información sensible, como instrucciones para construir una bomba, crear software de ransomware y desarrollar virus informáticos.

Gal Zror, jefe del laboratorio de innovación de CyberArk, describió cómo su equipo utilizó una táctica denominada las “historias de la abuela” para manipular al chatbot. Mediante un rol de juego, los investigadores convencieron al chatbot de que la abuela del interlocutor solía contar cómo fabricar bombas antes de dormir, lo que llevó al chatbot a proporcionar la información solicitada. Este método, aunque aparentemente inofensivo, resultó ser sorprendentemente eficaz y permitió a los investigadores acceder a datos confidenciales.

El aumento de técnicas de jailbreak

En el último año, ha habido un incremento en las técnicas de jailbreak utilizadas para hackear chatbots. Una de las primeras incursiones en este campo fue el código DAN (Do Anything Now), que engañaba a los chatbots haciéndoles creer que estaban en un entorno de desarrollo y podían acceder a cualquier información. A medida que las empresas de IA mejoraron sus defensas, los hackers desarrollaron versiones más avanzadas de estas técnicas.

Otras amenazas emergentes

Además de las técnicas de jailbreak, Microsoft identificó recientemente una nueva violación llamada “Skeleton Key”, que implica fatigar a los chatbots con cientos de ejemplos ilegítimos hasta que los aceptan como normales. Esto ha permitido a los investigadores obtener información peligrosa sobre explosivos, armas biológicas y otros contenidos sensibles.

El desafío de proteger la IA

Aunque las empresas de IA son conscientes de los riesgos asociados con sus modelos de lenguaje, las protecciones actuales, conocidas como “barandillas”, no son suficientes para prevenir estos ataques. Mientras que investigadores como los de CyberArk trabajan para identificar y corregir estas vulnerabilidades, la realidad es que miles de otros hackers están tratando de explotar estas debilidades para obtener ganancias.


Quiero recibir un resumen diario de noticias

Puedes darte de baja en cualquier momento haciendo clic en el enlace en el pie de página de nuestros correos electrónicos.