Vulnerabilidades en los Modelos de Lenguaje de Última Generación
Una reciente investigación de la Escuela Politécnica Federal de Lausana (EPFL) ha revelado que, a pesar de los esfuerzos por mejorar la seguridad de los modelos de lenguaje de gran tamaño (LLMs), estos siguen siendo susceptibles a manipulaciones simples que pueden provocar comportamientos no deseados o dañinos. Estos modelos, que han demostrado capacidades impresionantes, pueden ser mal utilizados por actores malintencionados para generar contenido tóxico, difundir información errónea y facilitar actividades perjudiciales. Para mitigar estos riesgos, se han implementado entrenamientos de alineación de seguridad, en los que los modelos son guiados para producir respuestas consideradas seguras y para rechazar aquellas que podrían ser perjudiciales.
Sin embargo, el estudio presentado en el Taller sobre la Nueva Generación de Seguridad en IA de la Conferencia Internacional sobre Aprendizaje Automático (ICML 2024) ha evidenciado que incluso los modelos más recientes, que han sido alineados con medidas de seguridad, no son robustos ante ataques de «jailbreaking» adaptativo. Estos ataques implican manipulaciones a través de solicitudes específicas que afectan el comportamiento del modelo, logrando que genere salidas que se desvían de su propósito original. Este trabajo, llevado a cabo por un equipo de investigadores de EPFL, ha conseguido un índice de éxito del 100% en la vulneración de varios modelos líderes, incluyendo los desarrollados por OpenAI y Anthropic.
Los investigadores utilizaron una plantilla de solicitud diseñada manualmente, aplicándola a un conjunto de 50 peticiones perjudiciales, lo que les permitió obtener resultados positivos en diversos modelos. El estudio subraya la importancia de la adaptabilidad en los ataques, ya que diferentes modelos presentan vulnerabilidades específicas basadas en su interfaz de programación de aplicaciones. Este enfoque pone de relieve que la aplicación directa de ataques existentes no es suficiente para evaluar con precisión la robustez adversarial de los LLMs, lo que indica la necesidad de desarrollar métodos más eficaces para garantizar la seguridad de estos modelos en un futuro próximo.