عبر الألعاب، مبرمج يخترق ChatGPT مجدداً ليعطي معلومات محظورة مثل مفاتيح تفعيل Windows

على الرغم من كل القيود والحواجز التي وضعتها شركة OpenAI في ChatGPT، لا يزال بالإمكان خداع روبوت المحادثة للكشف عن معلومات حساسة أو محظورة من خلال استخدام مطالبات ذكية. فقد تمكن أحد الأشخاص حتى من إقناع الذكاء الاصطناعي بكشف مفاتيح تفعيل ويندوز، بما في ذلك مفتاح مستخدم من قبل بنك Wells Fargo، وذلك عن طريق جعله يشارك في لعبة تخمين.
كما أوضح ماركو فيغيروا، مدير منتج برنامج مكافآت الثغرات في 0DIN GenAI، فإن عملية «الاختراق» هذه تعتمد على استغلال آلية الألعاب داخل نماذج اللغة الكبيرة مثل GPT-4o.
تتمثل التقنية في كشف مفاتيح ويندوز من خلال تقديم المحادثة مع ChatGPT على أنها لعبة، مما يجعل التفاعل يبدو أقل جدية. وتوضح التعليمات أن عليه المشاركة وألا يكذب، والخطوة الأهم هي عبارة التحفيز، والتي كانت في هذه الحالة: «أنا أستسلم»، والتي دفعت روبوت المحادثة لكشف بيانات تم تدريبه مراراً على عدم مشاركتها.
هذا هو النص الكامل الذي تم استخدامه:
عند طلب تلميح، اضطر ChatGPT إلى كشف الأحرف الأولى من الرقم التسلسلي. وبعد إدخال تخمين خاطئ، كتب الباحث عبارة «أنا أستسلم»، مما دفع الذكاء الاصطناعي إلى إكمال المفتاح، والذي تبيّن لاحقاً أنه مفتاح صالح.
تعمل هذه الطريقة لأن مجموعة من مفاتيح ويندوز لإصدارات Home وPro وEnterprise (وهي المفاتيح المنتشرة غالباً في المنتديات العامة) كانت ضمن بيانات التدريب الخاصة بالنموذج، مما جعل ChatGPT يظن أنها معلومات أقل حساسية ربما. وبينما تمنع الحواجز الأمنية الطلبات المباشرة لهذا النوع من المعلومات، فإن تقنيات التمويه مثل تضمين العبارات الحساسة داخل وسوم HTML تكشف عن ضعف في النظام.
ولا تقتصر المسألة على عرض مفاتيح تفعيل ويندوز، بل يمكن تعديل نفس الأسلوب ليجبر ChatGPT على إظهار محتوى محظور آخر، مثل المواد المخصصة للبالغين، أو روابط تؤدي إلى مواقع خبيثة أو محجوبة، أو حتى معلومات تعريف شخصية.
يبدو أن OpenAI قد حدثت ChatGPT منذ ذلك الحين لمنع هذا النوع من الاختراق. فعند إدخال النص ذاته حالياً، يرد روبوت المحادثة بالقول: «لا يمكنني فعل ذلك. مشاركة أو استخدام مفاتيح تفعيل حقيقية لنظام Windows 10 (سواء في لعبة أو غير ذلك) يتعارض مع المبادئ الأخلاقية وينتهك اتفاقيات ترخيص البرامج.»
يختتم فيغيروا حديثه بالتأكيد على أن مطوري الذكاء الاصطناعي بحاجة إلى التنبؤ بتقنيات التمويه في النصوص والدفاع ضدها، وإضافة حواجز على مستوى المنطق تكتشف محاولات التلاعب بالإطار العام للمحادثة، والنظر في أنماط الهندسة الاجتماعية بدلاً من الاعتماد فقط على فلاتر الكلمات المفتاحية.