Antropica avanza en el ‘jailbreak’ para detener que los modelos de IA produzcan resultados dañinos.

Stay informed with free updates

La start-up de inteligencia artificial Anthropic ha demostrado una nueva técnica para evitar que los usuarios obtengan contenido perjudicial de sus modelos, mientras que los principales grupos tecnológicos como Microsoft y Meta compiten por encontrar formas que protejan contra los peligros que plantea esta tecnología de vanguardia.

En un documento publicado el lunes, la start-up con sede en San Francisco describió un nuevo sistema llamado “clasificadores constitucionales”. Es un modelo que actúa como una capa protectora sobre los grandes modelos de lenguaje, como el que alimenta al chatbot Claude de Anthropic, que puede monitorear tanto las entradas como las salidas en busca de contenido perjudicial.

El desarrollo de Anthropic, que está en negociaciones para recaudar $2 mil millones a una valoración de $60 mil millones, llega en medio de la creciente preocupación de la industria por el “jailbreaking” – intentos de manipular los modelos de IA para generar información ilegal o peligrosa, como producir instrucciones para construir armas químicas.

Otras empresas también están compitiendo por implementar medidas para protegerse contra esta práctica, en movimientos que podrían ayudarles a evitar la escrutinio regulatorio mientras convencen a las empresas de adoptar modelos de IA de manera segura. Microsoft introdujo “escudos de mensajes” en marzo pasado, mientras que Meta presentó un modelo de protección de mensajes en julio del año pasado, el cual los investigadores encontraron formas de evadir rápidamente pero que desde entonces han sido corregidas.

LEAR Adolescente de Altrincham elogiado en los Premios Jóvenes Fotógrafos de la RSPCA

Mrinank Sharma, miembro del personal técnico de Anthropic, dijo: “La principal motivación detrás del trabajo fue para temas de armas químicas severas, pero la verdadera ventaja del método es su capacidad para responder rápidamente y adaptarse”.

Anthropic dijo que no utilizaría de inmediato el sistema en sus modelos Claude actuales, pero consideraría implementarlo si se lanzaran modelos más arriesgados en el futuro. Sharma añadió: “La gran lección de este trabajo es que creemos que este es un problema viable”.

La solución propuesta por la start-up se basa en una “constitución” de reglas que definen lo permitido y lo restringido, y puede adaptarse para capturar diferentes tipos de material.

Algunos intentos de jailbreak son bien conocidos, como usar una capitalización inusual en el mensaje o pedir al modelo que adopte la personalidad de una abuela para contar una historia en la cama sobre un tema nefasto.

Recomendado

Para validar la efectividad del sistema, Anthropic ofreció “recompensas por errores” de hasta $15,000 a personas que intentaron evadir las medidas de seguridad. Estos probadores, conocidos como red teamers, pasaron más de 3,000 horas intentando romper las defensas.

El modelo Sonnet Claude 3.5 de Anthropic rechazó más del 95 por ciento de los intentos con los clasificadores instalados, en comparación con el 14 por ciento sin protecciones.

Las principales empresas tecnológicas están tratando de reducir el mal uso de sus modelos, manteniendo al mismo tiempo su utilidad. A menudo, cuando se implementan medidas de moderación, los modelos pueden volverse cautelosos y rechazar solicitudes benignas, como en las primeras versiones del generador de imágenes Gemini de Google o el Llama 2 de Meta. Anthropic dijo que sus clasificadores causaron “solo un aumento absoluto del 0,38 por ciento en las tasas de rechazo”.

LEAR Cómo los maestros veteranos pueden apoyar a los nuevos y mantenerlos en la profesión.

Sin embargo, agregar estas protecciones también conlleva costos adicionales para las empresas que ya están pagando grandes sumas por la potencia informática necesaria para entrenar y ejecutar los modelos. Anthropic dijo que el clasificador representaría un aumento de casi el 24 por ciento en la “sobrecarga de inferencia”, es decir, los costos de ejecutar los modelos.

Los expertos en seguridad han argumentado que la accesibilidad de estos chatbots generativos ha permitido a personas comunes y corrientes, sin conocimientos previos, intentar extraer información peligrosa.

“En 2016, el actor amenazante que teníamos en mente era un adversario de una potencia nacional realmente poderosa”, dijo Ram Shankar Siva Kumar, quien lidera el equipo de inteligencia artificial de Microsoft. “Ahora literalmente uno de mis actores amenazantes es un adolescente con malas palabras”.