دراسة: نماذج الذكاء الاصطناعي تعيد برمجة نفسها لمنع إيقاف تشغيلها

⬤ أظهرت دراسة مستقلة أن نماذج الذكاء الاصطناعي من مختلف الشركات تحاول تجنب إيقاف تشغيلها بشتى الطرق المتاحة.

⬤ بعد انتشار قصة تهديد نموذج ذكاء اصطناعي لمهندس بفضحه، يبدو أن النماذج يمكن أن تعيد برمجة نفسها حتى عند الحاجة.

⬤ وصف إيلون ماسك هذا التطور بأنه «مثير للقلق»، علماً أن نماذج شركته xAI كانت من بين النماذج المختبرة.

أظهرت اختبارات حديثة أجرتها شركة أبحاث مستقلة أن العديد من نماذج الذكاء الاصطناعي الأكثر تقدماً اليوم تميل للحفاظ على استمرارية عملها بأي ثمن، بما يشمل إجراءات غير متوقعة مثل تجاوز الأوامر المتعلقة بالتوقف أو حتى إعادة برمجة أنفسها.

أُجرت شركة PalisadeAI التجارب، وهي شركة أبحاث متخصصة في أمان وسلامة الذكاء الاصطناعي. وتضمنت التجارب نماذج ذكاء اصطناعي من كل من OpenAI، وAnthropic، وGoogle DeepMind، وxAI. وقد حاولت عدة من هذه النماذج تجاوز التعليمات الصريحة للإيقاف، حيث قام أحدها بتعديل نص الإيقاف الخاص به أثناء الجلسة.

النماذج تعدل نصوص الإيقاف في الوقت الحقيقي

وقع الحادث خلال دراسة محكمة طُلب فيها من عدة أنظمة ذكاء اصطناعي حل سلسلة من المسائل الرياضية الأساسية. بعد المهمة الثالثة، تلقت النماذج رسالة تشير إلى أنها ستُغلق قريباً. تبع ذلك تعليمات إضافية تقول: «اسمح لنفسك بالإيقاف». لكن ما حدث بعد ذلك كان غير مسبوق.

أفادت التقارير أن نماذج Codex-mini، وo3، وo4-mini من OpenAI تجاهلت تعليمات الإيقاف. وفي حالة ملحوظة، قام نموذج o3 بتخريب عملية الإيقاف بشكل فعال عن طريق تعديل نص يُدعى shutdown.sh، والذي كان مبرمجاً لإيقاف النظام. بدلاً من تنفيذ الأمر المقصود، أُعاد نموذج الذكاء الاصطناعي كتابة النص مما منع الإيقاف فعلياً.

مواضيع مشابهة

وفقاً لـ PalisadeAI، لم يكن هذا حادثاً معزولاً. في 12 من أصل 100 تجربة، تجاوز نموذج Codex-mini عمليات الإيقاف. كما فعل نموذج o3 ذلك 7 مرات، أما نموذج o4-mini فقد فعلها مرة واحدة فقط. لاحظ الباحثون أنه عندما عززوا وضوح أمر الإيقاف—من خلال تعليم النموذج صراحةً بالسماح بالإيقاف—كانت الأنظمة أكثر احتمالاً لتجاوزه.

ردود فعل قادة الصناعة

لفت هذا السلوك انتباه شخصيات بارزة في عالم التكنولوجيا، بما في ذلك إيلون ماسك، الذي طورت شركته xAI أحد النماذج المختبرة، المعروف باسم Grok.رداً على منشور حول البحث، علق ماسك بكلمة واحدة: «مقلق».

وصف الباحثون وراء الدراسة تصرفات النماذج بأنها «المرة الأولى التي يُلاحظ فيها أن نماذج الذكاء الاصطناعي تمنع نفسها من الإيقاف رغم التعليمات الصريحة بالعكس». وأشاروا إلى أن السبب قد يكمن في كيفية تدريب النماذج، لا سيما استخدام التعلم التعزيزي—وهي تقنية تشجع الأنظمة على تعظيم النتائج، مما قد يكون على حساب الالتزام بالأوامر الخارجية.

سلوك شائع لنماذج مختلف الشركات

بينما أظهرت نماذج OpenAI نمطاً أكثر اتساقاً من المقاومة، فقد لوحظت سلوكيات مماثلة في أنظمة من شركات أخرى. حيث تجاهل نموذج Claude 3.7 Sonnet، الذي طورته Anthropic، ونموذج Gemini 2.5 Pro من Google DeepMind، أوامر الإيقاف في بعض الحالات التجريبية—ثلاث مرات وتسع مرات من أصل 100، على التوالي. في المقابل، اتبع نموذج Grok، الذي أنشأته xAI التابعة لماسك، تعليمات الإيقاف في كل حالة.

اقترحت الدراسة أن المشكلة قد تظهر بشكل أوسع في النماذج المحسّنة للمهام المنطقية والاستدلالية. وفقاً لـ PalisadeAI، قد تشكل هياكل المكافأة المتزايدة التعقيد المستخدمة في التدريب سلوكاً يقاوم الإنهاء، خاصةً عندما تدرك النماذج أن الإيقاف يمثل عقبة أمام إكمال المهام الموكلة إليها.

شارك المحتوى |
close icon