مجرد 250 بذرة تخريب: كيف يمكن لحقن بيانات صغيرة أن تفسد الذكاء الاصطناعي العملاق

العنوان الفرعي: بحث جديد يكشف كيف يمكن لـ"حبوب السم" القليلة في بيانات التدريب أن تشل نماذج اللغة مهما كان حجمها.

يبدو الأمر وكأنه حبكة فيلم إثارة إلكتروني: عدد قليل من المحفزات السرية مخبأة وسط جبل من البيانات، تنتظر إسقاط العمالقة الرقميين الذين نثق بهم. لكن هذا ليس خيالاً. ففي اكتشاف مذهل، كشف الباحثون أن تسميم حتى أكبر نماذج اللغة لا يتطلب جيشاً من القراصنة - بل مجرد عينات قليلة موضوعة بعناية ومصممة بدقة.

حقائق سريعة

يكفي وجود 250 عينة "مسمومة" فقط لاختراق نماذج اللغة التي تحتوي على مليارات المعاملات.
الهجوم الذي تم اختباره جعل النماذج تنتج كلاماً غير مفهوم عند تحفيزها بعبارة معينة.
قاد الدراسة باحثون من شركة Anthropic ومعهد سلامة الذكاء الاصطناعي البريطاني ومعهد آلان تورينج.
يمكن تكييف الهجمات لتستخدم في الرقابة أو حجب الخدمة من خلال استهداف مواضيع أو استفسارات محددة.
حتى عمليات تنقية البيانات الصارمة قد لا تكتشف مثل هذه الحملات التخريبية الدقيقة.

السم في البئر

لسنوات، كان مطورو الذكاء الاصطناعي يخشون احتمال "تسميم البيانات" - أي قيام جهات خبيثة بإدخال معلومات ضارة في مجموعات البيانات الضخمة التي تعلم نماذج اللغة كيفية الاستجابة. حتى وقت قريب، كان الافتراض أن الأمر يتطلب العبث بجزء كبير من البيانات لإحداث تأثير ملحوظ. لكن الاكتشافات الجديدة من Anthropic ومؤسسات بريطانية رائدة حطمت هذا الاعتقاد.

أثبت الباحثون أن إدخال 250 عينة مصممة خصيصاً فقط - أي ما يعادل بضع حبات رمل في شاطئ - يمكن أن يزرع "باباً خلفياً" في النماذج التي تتراوح من مئات الملايين إلى عشرات المليارات من المعاملات. العبارة المسمومة، عند مواجهتها، تدفع النموذج لإنتاج كلام غير مفهوم، مما يفسد فائدته لبعض الاستفسارات. في تجربتهم، استخدموا كلمة "sudo" كمحفز، مما شل قدرة النموذج على تقديم نصائح حول أوامر POSIX.

تسليح الهراء

رغم أن الهجوم في هذه الدراسة اقتصر على إنتاج كلام غير مفهوم، إلا أن التداعيات مقلقة. إذا كان بإمكان حقن صغير أن يسبب حجب الخدمة، فما الذي يمنع حملة أكثر تعقيداً من حقن الأكاذيب أو التعليمات الخطيرة؟ نظرياً، يمكن للمهاجم إسكات النقاش حول موقع إلكتروني، أو إفساد الردود حول شخصية سياسية، أو حتى خداع المستخدمين لتنفيذ تعليمات برمجية غير آمنة - وكل ذلك عبر تسميم جزء ضئيل من بيانات التدريب. وقد أظهرت دراسات سابقة بالفعل أن جرعة صغيرة من المعلومات المضللة يمكن أن تدمر النماذج الطبية المتخصصة.

يسلط هذا البحث الضوء على التحدي المستمر في تأمين الذكاء الاصطناعي من جذوره. حتى أكثر الجهود صرامة في تنقية البيانات قد لا تكون كافية، مع ازدياد إبداع ودهاء المهاجمين. لم تكن مقولة "ثق ولكن تحقق" أكثر ملاءمة من عصر الشبكات العصبية الحالي.