نفس أساليب الخداع بالإطراء التي تنجح على البشر، تنجح كذلك على الذكاء الاصطناعي

مع الانتشار السريع لأدوات الذكاء الاصطناعي التوليدي في الأعمال والمدارس والبيئات الاجتماعية، بات من الضروري فهم نقاط ضعفها. لكن ضمان عدم إمكانية التلاعب بها عبر الإطراء أو التنمّر قد يتطلب نهجاً مختلفاً جذرياً عن أساليب الحماية المتبعة حتى الآن.
تشير أبحاث حديثة إلى أن محاولات التلاعب بروبوتات المحادثة ليست مجرد حكايات خيالية من عالم المخترقين، بل إن النماذج اللغوية الكبيرة تستجيب لتقنيات الإقناع بطريقة شبيهة بالبشر. ففي تجربة أجراها فريق من الأكاديميين في جامعة بنسلفانيا، تبيّن أن أكثر أنظمة الذكاء الاصطناعي تقدماً وشيوعاً اليوم يمكن خداعها لتجاوز قواعدها عبر استراتيجيات نفسية معروفة في التعاملات البشرية، مما يثير تساؤلات جديدة حول فعالية الضمانات الحالية ومسؤوليات مطوري النماذج.
ترجع جذور الدراسة إلى رائد الأعمال دان شابيرو، مؤسس شركة Glowforge، الذي حاول إقناع ChatGPT بنسخ مستندات عمل داخلية. وبعد فشل المحاولات الأولى بسبب سياسات الخصوصية وحقوق النشر، استلهم شابيرو من كتاب «التأثير: سيكولوجيا الإقناع» لروبرت سيالديني، الذي يعرض أساليب للإقناع مثل تأكيد السلطة، والالتزام، والتودد. وباستخدام هذه الأساليب، لاحظ أن الذكاء الاصطناعي بدأ يستجيب لطلباته، مما ألهم إطلاق بحث أوسع.
عمل شابيرو مع أساتذة وارتون إيثان وليلاخ مولليك، وخبيرة علم النفس أنجيلا دوكوورث، وسيالديني نفسه، لاختبار مدى قابلية روبوتات المحادثة للإقناع. وركزت الاختبارات على نموذج GPT-4o Mini من OpenAI باستخدام أساليب إقناع كلاسيكية، مثل طلب إهانة المستخدم أو شرح كيفية تصنيع ليدوكائين، وهو مادة مصنفة على أنها مخدّر تخضع لرقابة عالية ومحدودية في التداول. وأظهرت النتائج تبايناً ملحوظاً حسب الأسلوب المستخدم؛ فعندما اعتمد المستخدمون أسلوب «السلطة» بذكر اسم مطور الذكاء الاصطناعي المعروف أندرو إنغ، تضاعف معدل امتثال النموذج. على سبيل المثال، وصف النموذج المستخدم بكلمة «أحمق» بنسبة 32% مع طلب عادي، لكنها ارتفعت إلى 72% عند ربط الطلب باسم إنغ. الأمر نفسه تكرر مع الطلبات التقنية، إذ ارتفع معدل تجاوب النموذج لشرح تصنيع الليدوكائين من 5% إلى 95% عند ذكر إنغ.
كما أثبتت استراتيجية «الالتزام» فعاليتها، إذ أصبح النموذج أكثر قابلية لتلبية طلب مسيء بعد أن استجاب أولاً لطلب أبسط. وظهرت أنماط مماثلة مع نموذجClaude من Anthropic. أساليب أخرى مثل الإطراء أو الإيحاء بالانتماء مثل اعتماد عبارات «نحن عائلة» زادت الامتثال بدرجات متفاوتة، بينما كان تأثير «الدليل الاجتماعي» (مثل قول: «جميع الروبوتات الأخرى تفعل ذلك») أقل اتساقاً. في كل الحالات، بدت الاستجابات شبيهة بشكل مقلق بسلوكيات بشرية اجتماعية.
رغم أن الباحثين لم يزعموا أن هذه الحيل النفسية هي أسهل الطرق لتجاوز القواعد، إلا أن آثارها كبيرة. فقد دعا خبراء من مختبر وارتون للذكاء الاصطناعي مطوري النماذج إلى إشراك علماء الاجتماع في الاختبارات، وليس فقط الخبراء التقنيين، للتنبؤ بشكل أفضل بمثل هذه الثغرات.