شركة DeepSeek تدعي أن تدريب نموذجها الجديد كلف 296 ألف دولار فقط

كشفت شركة DeepSeek الصينية عن أرقام تفصيلية لتكلفة تدريب نموذج الذكاء الاصطناعي R1، ما يوفر لمحة نادرة عن تطويره ويثير مجدداً التدقيق في أساليب الشركة ومواردها. حيث قالت الشركة الصينية الناشئة إن تدريب النموذج كلّف 294 ألف دولار باستخدام 512 شريحة Nvidia H800، وهو رقم أقل بكثير من تقديرات المنافسين الأمريكيين، وقد يزيد من التساؤلات حول كيفية تقدم الشركات المدعومة من بكين في سباق الذكاء الاصطناعي العالمي.

ظهر هذا الإفصاح في ورقة بحثية محكّمة نُشرت في مجلة Nature هذا الأسبوع، شارك في تأليفها المؤسس Liang Wenfeng. ويُعد هذا النشر خطوة غير مألوفة من DeepSeek التي لم تكشف الكثير منذ ظهورها المفاجئ على الساحة الدولية مطلع هذا العام. ففي يناير، أدى إطلاق الشركة لأنظمة ذكاء اصطناعي منخفضة التكلفة إلى اضطراب الأسواق، إذ تراجعت أسهم شركات تكنولوجيا كبرى بفعل مخاوف المستثمرين من تغير المشهد التنافسي.

تتباين تكلفة التدريب المُعلنة، البالغة 294 ألف دولار، بشكل صارخ مع تقديرات الشركات الأمريكية. فقد قال سام ألتمان، الرئيس التنفيذي لـOpenAI، في عام 2023 إن تدريب نماذج الشركة الأساسية كلّف «أكثر بكثير» من 100 مليون دولار، دون تقديم أرقام دقيقة.

قال باحثو DeepSeek إن نموذج R1 تم تدريبه على مدار 80 ساعة باستخدام عنقود من 512 شريحة Nvidia H800، وهي عتاد صممته الشركة الأمريكية خصيصاً للسوق الصينية المقيدة. كما اعترفت الشركة في ملحق إضافي وللمرة الأولى بأنها تمتلك وحدات Nvidia A100، والتي استُخدمت في التجارب الأولى مع نماذج أصغر قبل الانتقال إلى عتاد H800.

رغم أن الأرقام الواردة في Nature توحي بإنفاق منخفض بشكل غير عادي لتدريب نموذج متقدم، فإن خبراء الصناعة أبدوا شكوكاً. فقد ذكرت شركة SemiAnalysis البحثية أن DeepSeek عملت على نطاق أوسع بكثير مما أشارت إليه في البداية، مع وصول إلى نحو 50 ألف معالج رسومي من عائلة Nvidia Hopper، بما في ذلك 10 آلاف H800 و10 آلاف H100. وأضافت الشركة أن الرقم المتداول لتكلفة التدريب البالغة 5.5 ملايين دولار يمثل جزءاً ضيقاً فقط من التكاليف الحقيقية.

مواضيع مشابهة

وبحسب SemiAnalysis، استثمرت DeepSeek نحو 1.6 مليار دولار في الخوادم، وتكبدت حوالي 944 مليون دولار في تكاليف تشغيلية، وأنفقت أكثر من 500 مليون دولار خصيصاً على المعالجات الرسومية. وتشكل هذه النتائج تحدياً للتصور القائل إن DeepSeek بنت أنظمة ذكاء اصطناعي متقدمة بجزء بسيط فقط من تكلفة نظيراتها الأمريكية.

على صعيد آخر، تطرقت DeepSeek إلى أسئلة مستمرة حول أصول نماذجها. فقد اتهمها منتقدون، بينهم مسؤولون أمريكيون ومديرو شركات ذكاء اصطناعي، بالاعتماد بشكل كبير على تقنية التقطير، وهي طريقة يجري فيها تدريب نموذج جديد على مخرجات نموذج آخر، ما يسمح له بتكرار المعرفة بتكلفة أقل.

دافعت DeepSeek باستمرار عن هذا النهج، معتبرة أنه يتيح أنظمة أكثر كفاءة يمكن نشرها بتكلفة معقولة وعلى نطاق واسع. وكانت الشركة قد أقرت سابقاً باستخدام نموذج Llama مفتوح المصدر من Meta في بعض النماذج المقطّرة.

في ورقتها المنشورة في Nature، اعترف باحثو DeepSeek كذلك بأن بيانات التدريب لنموذج V3 تضمنت «عدداً كبيراً» من الردود المولدة بواسطة أنظمة OpenAI. ووصفوا ذلك بأنه حدث عرضي ناجم عن بيانات تم جمعها من الإنترنت، وليس محاولة متعمدة لاستنساخ نماذج خارجية.

مجتمعةً، تُبرز إفصاحات التكلفة والادعاءات المتنازع عليها والجدل المنهجي صعوبة التحقق من القدرات الحقيقية لـDeepSeek. فمنذ ظهورها في يناير، واصلت الشركة إطلاق تحديثات تدريجية لمنتجاتها بينما حافظت على حضور عام منخفض نسبياً. ومع ذلك، فإن الأدلة على الكفاءة في التكاليف وطرق التطوير البديلة قد تزيد من الضغوط على الشركات الأمريكية التي تكافح مع تضخم نفقات التدريب.

شارك المحتوى |
close icon