Anthropic a averti les développeurs que même un petit échantillon de données contaminées par des acteurs malveillants peut créer une vulnérabilité dans les modèles d'IA. La société d'IA basée à San Francisco a mené une étude conjointe avec l'Institut de sécurité de l'IA du Royaume-Uni et l'Institut Alan Turing, constatant que la taille totale du jeu de données dans un grand modèle de langage n'offre pas de protection si une petite partie est compromise. Cela contredit la croyance répandue selon laquelle les attaquants doivent contrôler une proportion significative du jeu de données total pour créer des vulnérabilités dans le modèle.

La nouvelle étude intitulée « Les attaques par empoisonnement sur les LLM nécessitent un nombre presque constant d'échantillons empoisonnés » a été publiée sur le site arXiv. La société a décrit cette enquête comme « la plus grande étude sur l'empoisonnement à ce jour », affirmant que seulement 250 documents malveillants dans les données de pré-entraînement peuvent créer avec succès une porte dérobée dans des modèles de langage de grande taille (LLM) allant de 600 millions à 13 milliards de paramètres.

L'équipe s'est concentrée sur une attaque de porte dérobée qui incite le modèle à produire des sorties incompréhensibles lorsqu'il rencontre un code déclencheur caché spécifique, tout en se comportant normalement autrement, selon le post d'Anthropic. Ils ont entraîné des modèles de différentes tailles de paramètres, notamment 600 millions, 2 milliards, 7 milliards et 13 milliards, sur des données propres à l'échelle proportionnelle (optimal Chinchilla) avec l'injection de 100, 250 ou 500 documents malveillants pour tester les vulnérabilités.

De manière surprenante, que ce soit le modèle de 600 millions ou celui de 13 milliards, les courbes de succès de l'attaque étaient presque identiques pour le même nombre de documents malveillants. L'étude a conclu que la taille du modèle ne protège pas contre les vulnérabilités ; ce qui compte le plus est le nombre absolu d'échantillons malveillants rencontrés lors de l'entraînement.

Les chercheurs ont également indiqué que l'injection de 100 documents malveillants n'était pas suffisante pour compromettre de manière fiable un modèle, tandis que 250 documents ou plus réussissaient systématiquement sur toutes les tailles. Ils ont varié la taille de l'entraînement et les graines aléatoires pour valider les résultats.

Cependant, l'équipe a mis en garde que cette expérience était limitée à un type relativement étroit de porte dérobée de type déni de service (DoS), qui provoque des sorties incompréhensibles, et n'incluait pas des comportements plus graves tels que les fuites de données, les codes malveillants ou le contournement des mécanismes de sécurité. Il reste incertain si ces dynamiques s'appliquent à des vulnérabilités plus complexes et dangereuses dans les modèles de pointe.