Solo 250 semillas de sabotaje: cómo diminutas inyecciones de datos pueden corromper gigantescas IAs

Subtítulo: Nuevas investigaciones revelan cómo mínimas “píldoras venenosas” en los datos de entrenamiento pueden inutilizar modelos de lenguaje de cualquier tamaño.

Parece el argumento de un ciberthriller: un puñado de desencadenantes secretos ocultos en una montaña de datos, esperando para derribar a los gigantes digitales en los que confiamos. Pero esto no es ficción. En un descubrimiento sorprendente, los investigadores han revelado que envenenar incluso los modelos de lenguaje más grandes no requiere un ejército concertado de hackers, sino solo unas pocas muestras bien ubicadas y cuidadosamente diseñadas.

El veneno en el pozo

Durante años, los desarrolladores de IA han temido la posibilidad del “envenenamiento de datos”: actores maliciosos que infiltran información dañina en los vastos conjuntos de datos que enseñan a los modelos de lenguaje cómo responder. Hasta ahora, se asumía que era necesario manipular una parte significativa de los datos para causar un impacto notable. Pero los nuevos hallazgos de Anthropic y destacados institutos británicos han destrozado esa creencia.

Los investigadores demostraron que insertar solo 250 muestras diseñadas a medida - como unos pocos granos de arena en una playa - puede implantar una “puerta trasera” en modelos que van desde cientos de millones hasta decenas de miles de millones de parámetros. La frase envenenada, al ser encontrada, hace que el modelo escupa disparates, saboteando efectivamente su utilidad para ciertas consultas. En su experimento, la palabra “sudo” se utilizó como desencadenante, inutilizando el modelo para cualquiera que buscara consejos sobre la línea de comandos POSIX.

Armas de galimatías

Aunque el ataque en este estudio se limitó a generar galimatías, las implicaciones son escalofriantes. Si una pequeña inyección puede causar una denegación de servicio, ¿qué impediría que una campaña más sofisticada inyectara falsedades o instrucciones peligrosas? Teóricamente, un atacante podría silenciar la discusión sobre un sitio web, corromper respuestas sobre una figura política o incluso engañar a los usuarios para que ejecuten código inseguro - todo ello envenenando una fracción minúscula de los datos de entrenamiento. Estudios previos ya han demostrado que incluso una pequeña dosis de desinformación puede devastar modelos médicos especializados.

Esta investigación pone de relieve el desafío constante de asegurar la IA desde sus cimientos. Incluso los esfuerzos más diligentes por sanear los datos pueden no ser suficientes, a medida que los atacantes se vuelven más creativos y sutiles. El adagio “confía, pero verifica” nunca ha sido más pertinente en la era de las redes neuronales.