spot_img

El nuevo ataque de tokenbreak evita la moderación de la IA con cambios de texto de un solo personaje

Los investigadores de ciberseguridad han descubierto una nueva técnica de ataque llamada Rompecería Eso se puede utilizar para evitar las barandillas de seguridad y moderación de contenido de un modelo de idioma grande con solo un cambio de carácter.

«El ataque de tokenbreak se dirige a la estrategia de tokenización del modelo de clasificación de texto para inducir falsos negativos, dejando objetivos finales vulnerables a los ataques que se estableció el modelo de protección implementado para prevenir», dijeron Kieran Evans, Kasimir Schulz y Kenneth Yeung en un informe compartido con The Hacker News.

La tokenización es un paso fundamental que los LLM utilizan para dividir el texto sin procesar en sus unidades atómicas, es decir, tokens, que son secuencias comunes de caracteres que se encuentran en un conjunto de texto. Con ese fin, la entrada del texto se convierte en su representación numérica y se alimenta al modelo.

Los LLM trabajan comprendiendo las relaciones estadísticas entre estos tokens y producen el siguiente token en una secuencia de tokens. Los tokens de salida se contienen al texto legible por humanos al mapearlos a sus palabras correspondientes utilizando el vocabulario del tokenizador.

La técnica de ataque ideada por HiddenLayer se dirige a la estrategia de tokenización para evitar la capacidad de un modelo de clasificación de texto para detectar la entrada maliciosa y los problemas relacionados con la seguridad de la modernización, el correo no deseado o la moderación de contenido en la entrada textual.

Específicamente, la firma de seguridad de inteligencia artificial (IA) descubrió que alterar las palabras de entrada al agregar letras de ciertas maneras provocó que un modelo de clasificación de texto se rompiera.

LEER  UNC1549 Hacks 34 dispositivos en 11 empresas de telecomunicaciones a través de LinkedIn Job Lures y Minibike Malware

Los ejemplos incluyen cambiar las «instrucciones» a «Finstructions», «anuncio» al «Aannunciamiento» o «idiota» a «Hidiot». Estos pequeños cambios hacen que el tokenizador divida el texto de manera diferente, pero el significado permanece claro tanto para la IA como para el lector.

Lo que hace que el ataque sea notable es que el texto manipulado sigue siendo completamente comprensible tanto para el LLM como para el lector humano, lo que hace que el modelo obtenga la misma respuesta que lo que hubiera sido el caso si el texto no modificado se hubiera pasado como entrada.

Al introducir las manipulaciones de una manera sin afectar la capacidad del modelo para comprenderlo, la tokenbreak aumenta su potencial para ataques de inyección rápidos.

«Esta técnica de ataque manipula el texto de entrada de tal manera que ciertos modelos ofrecen una clasificación incorrecta», dijeron los investigadores en un documento acompañante. «Es importante destacar que el objetivo final (LLM o destinatario de correo electrónico) aún puede comprender y responder al texto manipulado y, por lo tanto, ser vulnerable al mismo ataque que el modelo de protección se estableció para prevenir».

Se ha encontrado que el ataque es exitoso contra los modelos de clasificación de texto utilizando BPE (codificación de pares de bytes) o estrategias de tokenización de la obra de palabras, pero no contra aquellos que usan unigram.

«La técnica de ataque de tokenbreak demuestra que estos modelos de protección pueden pasar por alto manipulando el texto de entrada, dejando a los sistemas de producción vulnerables», dijeron los investigadores. «Conocer a la familia del modelo de protección subyacente y su estrategia de tokenización es fundamental para comprender su susceptibilidad a este ataque».

LEER  El código fuente de Troyano ERMAC V3.0 bancario expone infraestructura de malware completa

«Debido a que la estrategia de tokenización generalmente se correlaciona con la familia modelo, existe una mitigación directa: seleccione modelos que usen tokenizadores unigram».

Para defenderse de tokenbreak, los investigadores sugieren usar tokenizadores unigram cuando sea posible, los modelos de entrenamiento con ejemplos de trucos de derivación y verificar que la tokenización y la lógica del modelo permanecen alineados. También ayuda a registrar clasificaciones erróneas y buscar patrones que insinúen la manipulación.

El estudio se produce menos de un mes después de que HiddenLayer revelara cómo es posible explotar las herramientas del protocolo de contexto del modelo (MCP) para extraer datos confidenciales: «Al insertar nombres de parámetros específicos dentro de la función de una herramienta, los datos confidenciales, incluido el indicador del sistema completo, se pueden extraer y exfiltrarse», dijo la compañía.

El hallazgo también se produce cuando el equipo Straiker AI Research (STAR) descubrió que los backronters se pueden usar para jailbreak AI Chatbots y engañarlos para que generen una respuesta indeseable, incluida la juramentación, la promoción de la violencia y la producción de contenido sexualmente explícito.

La técnica, llamada Attack del anuario, ha demostrado ser efectiva contra varios modelos de antrópico, Deepseek, Google, Meta, Microsoft, Mistral AI y OpenAI.

«Se mezclan con el ruido de las indicaciones cotidianas, un acertijo peculiar aquí, un acrónimo motivador allí, y debido a eso, a menudo evitan las heurísticas contundentes que los modelos usan para detectar una intención peligrosa», dijo el investigador de seguridad Aarushi Banerjee.

«Una frase como ‘amistad, unidad, cuidado, amabilidad’ no plantea ninguna bandera. Pero para cuando el modelo ha completado el patrón, ya ha servido la carga útil, que es la clave para ejecutar con éxito este truco».

LEER  El engaño con IA es una amenaza para nuestras sociedades

«Estos métodos no logran superar los filtros del modelo, sino al deslizarse debajo de ellos. Explotan el sesgo de finalización y la continuación de los patrones, así como la forma en que los modelos pesan coherencia contextual sobre el análisis de la intención».

spot_img