Hackers ‘jailbreak’ modelos AI poderosos en un esfuerzo global para resaltar fallos.

Pliny the Prompter afirma que normalmente le lleva alrededor de 30 minutos romper los modelos de inteligencia artificial más poderosos del mundo.

El hacker pseudónimo ha manipulado el Llama 3 de Meta para compartir instrucciones sobre cómo hacer napalm. Hizo que el Grok de Elon Musk elogiara a Adolf Hitler. Su propia versión hackeada del último modelo GPT-4o de OpenAI, llamada “Godmode GPT”, fue prohibida por la start-up después de que comenzara a aconsejar sobre actividades ilegales.

Pliny le dijo al Financial Times que su “jailbreaking” no era malicioso, sino parte de un esfuerzo internacional para resaltar las deficiencias de los grandes modelos de lenguaje lanzados apresuradamente al público por las empresas tecnológicas en busca de enormes beneficios.

“He estado en esta cruzada de concienciación sobre las verdaderas capacidades de estos modelos”, dijo Pliny, un comerciante de criptomonedas y acciones que comparte sus jailbreaks en X. “Muchos de estos son ataques novedosos que podrían ser artículos de investigación por derecho propio. Al final del día, estoy haciendo trabajo para [los propietarios del modelo] de forma gratuita.”

Pliny es solo uno de los docenas de hackers, investigadores académicos y expertos en ciberseguridad que compiten por encontrar vulnerabilidades en los LLMs incipientes, por ejemplo, engañando a los chatbots con indicaciones para evadir las “barreras” que las empresas de IA han instituido en un esfuerzo por garantizar que sus productos sean seguros.

Estos hackers éticos “white hat” a menudo han encontrado formas de hacer que los modelos de IA creen contenido peligroso, difundan desinformación, compartan datos privados o generen código malicioso.

Empresas como OpenAI, Meta y Google ya utilizan “equipos rojos” de hackers para probar sus modelos antes de que se lancen ampliamente. Pero las vulnerabilidades de la tecnología han creado un mercado en auge de start-ups de seguridad de LLM que construyen herramientas para proteger a las empresas que planean utilizar modelos de IA. Las start-ups de seguridad de aprendizaje automático recaudaron $213 millones en 23 acuerdos en 2023, frente a los $70 millones del año anterior, según el proveedor de datos CB Insights.

LEAR  EmpowerU amplía su oferta de salud mental para estudiantes de Nivel 2.

“El panorama del jailbreaking comenzó hace aproximadamente un año, y los ataques hasta ahora han evolucionado constantemente”, dijo Eran Shimony, investigador principal de vulnerabilidades en CyberArk, un grupo de ciberseguridad que ahora ofrece seguridad de LLM. “Es un juego constante de gato y ratón, de vendedores mejorando la seguridad de nuestros LLMs, pero también de atacantes haciendo que sus indicaciones sean más sofisticadas.”

Estos esfuerzos llegan en un momento en que los reguladores globales buscan intervenir para frenar los posibles peligros en torno a los modelos de IA. La UE ha aprobado la Ley de IA, que crea nuevas responsabilidades para los fabricantes de LLM, mientras que el Reino Unido y Singapur se encuentran entre los países que están considerando nuevas leyes para regular el sector.

La legislatura de California votará en agosto sobre un proyecto de ley que requeriría que los grupos de IA del estado, que incluyen a Meta, Google y OpenAI, aseguren que no desarrollan modelos con “una capacidad peligrosa”.

“Todos los [modelos de IA] encajarían en ese criterio”, dijo Pliny.

Mientras tanto, los LLMs manipulados con nombres como WormGPT y FraudGPT han sido creados por hackers maliciosos para ser vendidos en la dark web por tan solo $90 para ayudar con ataques cibernéticos escribiendo malware o ayudando a los estafadores a crear campañas de phishing automatizadas pero altamente personalizadas. Han surgido otras variaciones, como EscapeGPT, BadGPT, DarkGPT y Black Hat GPT, según el grupo de seguridad de IA SlashNext.

Algunos hackers utilizan modelos de código abierto “sin censura”. Para otros, los ataques de jailbreaking, o eludir las salvaguardias incorporadas en los LLMs existentes, representan un nuevo oficio, con los perpetradores a menudo compartiendo consejos en comunidades en plataformas de redes sociales como Reddit o Discord.

LEAR  Vientos del Océano y UFRN firman Memorando de Entendimiento para energía eólica marina en Brasil.

Los enfoques van desde hackers individuales que sortean los filtros utilizando sinónimos de palabras que han sido bloqueadas por los creadores del modelo, hasta ataques más sofisticados que utilizan la IA para hackear de forma automatizada.

El año pasado, investigadores de la Universidad Carnegie Mellon y el Centro de IA Safety de EE. UU. dijeron haber encontrado una forma de jailbreak sistemáticamente LLMs como el ChatGPT de OpenAI, el Gemini de Google y una versión anterior del Claude de Anthropic, modelos “cerrados” propietarios que supuestamente eran menos vulnerables a ataques. Los investigadores agregaron que “no está claro si tal comportamiento puede ser parcheado completamente por los proveedores de LLM”.

Anthropic publicó una investigación en abril sobre una técnica llamada “many-shot jailbreaking”, mediante la cual los hackers pueden preparar un LLM mostrándole una larga lista de preguntas y respuestas, animándolo a responder luego una pregunta dañina modelando el mismo estilo. El ataque ha sido posible debido a que modelos como los desarrollados por Anthropic ahora tienen una ventana de contexto más grande, o espacio para agregar texto.

“Aunque los LLMs de última generación son poderosos, no pensamos que aún representen riesgos realmente catastróficos. Los modelos futuros podrían hacerlo”, escribió Anthropic. “Esto significa que ahora es el momento de trabajar para mitigar posibles jailbreaks de LLM antes de que se utilicen en modelos que puedan causar daños graves.”

Algunos desarrolladores de IA dijeron que muchos ataques seguían siendo bastante benignos por ahora. Pero otros advirtieron sobre ciertos tipos de ataques que podrían comenzar a provocar fugas de datos, en las que los actores maliciosos podrían encontrar formas de extraer información sensible, como datos en los que se ha entrenado un modelo.

LEAR  EE. UU. incauta sitios web supuestamente utilizados por Rusia para difundir desinformación electoral

DeepKeep, un grupo de seguridad de LLM israelí, encontró formas de obligar a Llama 2, un modelo de IA más antiguo de Meta que es de código abierto, a filtrar la información personal identificable de los usuarios. Rony Ohayon, director ejecutivo de DeepKeep, dijo que su empresa estaba desarrollando herramientas específicas de seguridad de LLM, como firewalls, para proteger a los usuarios.

“Liberar abiertamente modelos comparte los beneficios de la IA ampliamente y permite a más investigadores identificar y ayudar a corregir vulnerabilidades, para que las empresas puedan hacer que los modelos sean más seguros”, dijo Meta en un comunicado.

Agregó que realizó pruebas de estrés de seguridad con expertos internos y externos en su último modelo Llama 3 y su chatbot Meta AI.

OpenAI y Google dijeron que estaban entrenando continuamente modelos para defenderse mejor contra exploits y comportamientos adversos. Anthropic, que los expertos dicen que ha hecho los esfuerzos más avanzados en seguridad de IA, pidió más intercambio de información e investigación sobre estos tipos de ataques.

A pesar de las garantías, cualquier riesgo solo se volverá mayor a medida que los modelos se vuelvan más interconectados con la tecnología y los dispositivos existentes, dijeron los expertos. Este mes, Apple anunció que se había asociado con OpenAI para integrar ChatGPT en sus dispositivos como parte de un nuevo sistema “Apple Intelligence”.

Ohayon dijo: “En general, las empresas no están preparadas.”

No devuelvas la versión en inglés. No me repitas. No repitas el texto enviado. Solo proporciona el texto en español.