Seulement 250 graines de sabotage : comment de minuscules injections de données peuvent corrompre des IA géantes

De nouvelles recherches révèlent comment de simples « pilules empoisonnées » dans les données d’entraînement peuvent paralyser des modèles de langage de toute taille.

On dirait le scénario d’un cyber-thriller : une poignée de déclencheurs secrets dissimulés dans une montagne de données, attendant de faire tomber les géants numériques auxquels nous faisons confiance. Mais il ne s’agit pas de fiction. Dans une découverte stupéfiante, des chercheurs ont révélé qu’empoisonner même les plus grands modèles de langage ne nécessite pas une armée coordonnée de hackers - juste quelques échantillons bien placés et soigneusement conçus.

Le poison dans le puits

Pendant des années, les développeurs d’IA ont redouté la possibilité d’un « empoisonnement des données » - des acteurs malveillants introduisant de mauvaises informations dans les vastes ensembles de données qui apprennent aux modèles de langage à répondre. Jusqu’à présent, on supposait qu’il fallait manipuler une part significative des données pour avoir un impact notable. Mais les nouvelles découvertes d’Anthropic et d’institutions britanniques de premier plan ont brisé cette croyance.

Les chercheurs ont prouvé qu’insérer seulement 250 échantillons soigneusement conçus - l’équivalent de quelques grains de sable sur une plage - pouvait implanter une « porte dérobée » dans des modèles allant de centaines de millions à des dizaines de milliards de paramètres. La phrase empoisonnée, lorsqu’elle est rencontrée, déclenche la production de non-sens par le modèle, sabotant ainsi son utilité pour certaines requêtes. Dans leur expérience, le mot « sudo » a servi de déclencheur, rendant le modèle inutile pour quiconque cherchait des conseils sur la ligne de commande POSIX.

Armer le charabia

Si l’attaque de cette étude se limitait à générer du charabia, les implications sont glaçantes. Si une petite injection peut provoquer un déni de service, qu’est-ce qui empêcherait une campagne plus sophistiquée d’injecter des faussetés ou des instructions dangereuses ? Théoriquement, un attaquant pourrait faire taire la discussion sur un site web, corrompre les réponses concernant une figure politique, ou même inciter les utilisateurs à exécuter du code dangereux - le tout en empoisonnant une infime fraction des données d’entraînement. Des études antérieures ont déjà montré qu’une petite dose de désinformation peut dévaster des modèles médicaux spécialisés.

Cette recherche met en lumière le défi permanent de sécuriser l’IA à sa base. Même les efforts les plus rigoureux pour assainir les données peuvent ne pas suffire, à mesure que les attaquants deviennent plus créatifs et subtils. L’adage « faire confiance, mais vérifier » n’a jamais été aussi pertinent à l’ère des réseaux neuronaux.