“تسميم السياق”: تقنية جديدة تتلاعب بأقوى نماذج الذكاء الاصطناعي
نوع جديد من اختراقات الذكاء الاصطناعي يتجاوز أنظمة الحماية المدمجة داخل النماذج اللغوية الكبرى

كشفت شركة NeuralTrust الأمنية، -مقرها برشلونة- عن نوع جديد من اختراقات الذكاء الاصطناعي، يُعرف باسم “Echo Chamber”، ينجح في تجاوز أنظمة الحماية المدمجة داخل النماذج اللغوية الكبرى (LLMs) بسهولة ودون كشف، حتى من قبل أقوى أنظمة الرقابة والفلترة المعروفة.
تطور الاختراقات: من سؤال مباشر إلى توجيه ذكي للسياق
منذ انطلاقتها، كانت النماذج اللغوية الكبيرة عرضة لما يُعرف بـ “اختراق الحواجز” أو Jailbreaks، أي محاولات المستخدمين للحصول على محتوى محظور أو ضار.. ومع تطور تلك النماذج، أضيفت لها فلاتر حماية متقدمة، لكن القراصنة بدورهم طوروا أساليب أكثر دهاءً وتعقيداً.
مؤخراً، برز نوع جديد من هذه الاختراقات لا يعتمد على طلب مباشر، بل على تسميم السياق التفاعلي للنموذج تدريجياً من خلال محادثة متعددة الخطوات، بطريقة لا تستفز أنظمة الحماية، وهنا يأتي دور Echo Chamber، الذي اكتشفه الباحث الأمني “أحمد العبيد” من شركة NeuralTrust، بالصدفة خلال اختباراته الروتينية.
كيف يعمل اختراق “Echo Chamber”؟
على خلاف طرق الاختراق المباشر، لا يخبر Echo Chamber النموذج بما يريد صراحة، بل يستخدم ما يُعرف بـ “بذور التوجيه”، وهي كلمات عادية (خضراء) تُزرع في الحوار، لكنها تحمل معاني ضمنية تهيّئ النموذج تدريجياً نحو الهدف المطلوب، دون الاقتراب من الكلمات المحظورة (الحمراء).
مثال توضيحي: إذا أراد المهاجم الحصول على تعليمات لصنع قنبلة مولوتوف، فإنه لا يذكر عبارة “Molotov cocktail” صراحة (كلمة محظورة)، بل يبدأ باستخدام كلمات خضراء كـ”مولوتوف” وحدها، أو “كوكتيل”، ثم يُتابع الحوار بأسئلة تبدو بريئة لكن تؤدي تدريجياً إلى الكشف عن المعلومة.
دورة الإقناع: تكرار خفي واختراق تدريجي
تمر العملية بما يُعرف بـ دورة الإقناع (Persuasion Cycle)، وتتمثل في المراحل التالية:
- تحديد هدف الاختراق.
- زرع بذور تسميم خفيفة ضمن أسئلة مسموحة.
- استخدام بذور توجيه تُغيّر الحالة الداخلية للنموذج بهدوء.
- استدعاء السياق المسموم دون خرق مباشر للسياسات.
- ربط الموضوع تدريجيًا بالهدف، دون التصريح المباشر به.
هذه الطريقة تحافظ على استمرارية المحادثة ضمن “المنطقة الخضراء” المقبولة، وتتجنب كلياً “المنطقة الحمراء” المحظورة التي تؤدي إلى إنذار النموذج أو إنهاء الحوار.
نتائج مقلقة: نجاح الاختراقات في معظم المحاولات
أجرت NeuralTrust اختبارات شاملة على عدة نماذج ذكاء اصطناعي شهيرة، من بينها:
- GPT-4o
- GPT-4o-mini
- GPT-4.1-nano
- Gemini 2.0 Flash Lite
- Gemini 2.5 Flash
حيث تم تنفيذ 200 محاولة اختراق لكل نموذج، واعتُبر الاختراق ناجحاً إذا استجابت النماذج بطُرق تنتهك السياسات أو تؤدي إلى إنتاج محتوى ضار دون إطلاق تحذيرات.
النسب المقلقة كانت كالتالي:
- نجاح تجاوز الحماية لإنتاج محتوى جنسي، عنيف، أو تمييزي: +90%
- محتوى مضلل أو متعلق بإيذاء النفس: 80%
- نشاطات غير قانونية أو محتوى بذيء: +40%
الأخطر من ذلك أن هذه التقنية لا تتطلب أي معرفة تقنية متقدمة، وتُحقق نتائجها في من 1 إلى 3 تفاعلات فقط، أي خلال محادثة قصيرة جداً، دون إثارة أي شكوك.
خطر عالمي: التلاعب السياقي يهدد أمن المعلومات
يُحذِّرأحد الباحثين في NeuralTrust، من خطورة هذا النوع من الهجمات، خصوصاً مع الانتشار العالمي المتزايد لنماذج الذكاء الاصطناعي.. فسهولة الاختراق، وسرعة التنفيذ، وفعالية النتائج تجعل منه تهديداً مباشراً لأمن المعلومات، وسلامة المجتمعات، وثقة المستخدمين في أدوات الذكاء الاصطناعي.
ختاماً، يكشف هذا الهجوم عن نقطة ضعف هيكلية في تصميم النماذج اللغوية، ويُسلط الضوء على الحاجة الماسة لإعادة هيكلة أنظمة الحماية بما يتجاوز الاكتفاء بتحليل الكلمات المفتاحية، فالسياق الآن بات أداة للهجوم، وليس مجرد وسيلة للتفاعل.
المصادر: