جي 42 الإماراتية تطلق نموذجاً لغوياً كبيراً للغة العربية مفتوح المصدر باسم “جيس”

أعلن “إنسبشن”، مركز الذكاء الاصطناعي التابع لمجموعة “جي 42” (G42)، عن إطلاق الإصدار مفتوح المصدر من نموذج “جيس”، النموذج اللغوي الكبير للغة العربية الأعلى جودة على مستوى العالم. يستند “جيس” إلى 13 مليار مؤشر، وتم تدريبه على مجموعة بيانات جرى تطويرها حديثاً وتضم 395 مليار رمز باللغتين العربية والإنجليزية.

وجاءت تسمية “جيس” تيمناً بأعلى قمة في دولة الإمارات العربية المتحدة، وستكون مهمته تسخير مزايا الذكاء الاصطناعي التوليدي في العالم العربي. ويعد هذا النموذج ثمرة تعاون بين مركز “إنسبشن” التابع لمجموعة “جي 42″؛ وجامعة محمد بن زايد للذكاء الاصطناعي، أول جامعة للدراسات العليا المتخصصة ببحوث الذكاء الاصطناعي على مستوى العالم؛ وشركة “سيريبراس سيستمز”. وتم تدريب النموذج باستخدام “كوندور جالاكسي”، الحاسوب الفائق المدعوم بالذكاء الاصطناعي بقدرة حوسبة متعددة الإكسافلوبس (مليون ترليون عملية حسابية في الثانية)، والذي تم تصميمه بالتعاون بين “جي 42″ و”سيريبراس سيستمز”.

ويعد إطلاق “جيس” محطة بالغة الأهمية في مضمار الذكاء الاصطناعي في العالم العربي؛ ذلك أن هذا النموذج، الذي تم تطويره في العاصمة الإماراتية أبوظبي، يتيح لأكثر من 400 مليون متحدث باللغة العربية فرصة مهمة لاستكشاف القدرات الكامنة للذكاء الاصطناعي التوليدي، كما يعزز مكانة دولة الإمارات باعتبارها مركزاً رائداً للذكاء الاصطناعي، والابتكار، وصون الثقافة، والتعاون الدولي.

ويسعى مركز “إنسبشن”، من خلال فتح مصدر نموذج “جيس”، إلى حفز مشاركة المجتمعات العلمية والأكاديمية والمطورين في تسريع نمو منظومة حيوية للذكاء الاصطناعي باللغة العربية والارتقاء بمستوى االابتكار في هذا المجال، فقد يشكّل “جيس” نموذجاً يحتذى به للغات أخرى لا تحظى حالياً بدرجة كافية من التمثيل في بيئات الذكاء الاصطناعي الرائجة.

وبهذه المناسبة، قال أندرو جاكسون، الرئيس التنفيذي لمركز “إنسبشن” للذكاء الاصطناعي: “نؤمن في ’إنسبشن‘ بأن التعاون هو أساس الازدهار. ونرسي اليوم معياراً جديداً لتقدم الذكاء الاصطناعي في منطقة الشرق الأوسط مع ضمان مكانة متميزة للغة العربية بكل ثرائها وإرثها في مشهد الذكاء الاصطناعي. ويعكس ’جيس‘ التزامنا الراسخ بالتميز والابتكار ونشر منظومة الذكاء الاصطناعي على نطاق أوسع”.

يبين تقييم أداء “جيس” تفوقه على النماذج اللغوية العربية الحالية بهامش كبير، ومنافسته للنماذج اللغوية الإنجليزية المشابهة على الرغم من تلقيه تدريباً أقل على بيانات اللغة الإنجليزية. وتُظهر هذه النتائج أن جزء اللغة الإنجليزية من النموذج تعلّم من بيانات اللغة العربية والعكس صحيح، مما يفتح آفاق حقبة جديدة في تطوير وتدريب النماذج اللغوية الكبيرة.

من جانبه، قال البروفيسور إيريك زينغ، رئيس جامعة محمد بن زايد للذكاء الاصطناعي والبروفيسور الجامعي: “تطلّب تطوير نموذج لغوي كبير للغة العربية من هذا المستوى إجراء أبحاث متقدمة في مجال الذكاء الاصطناعي، واكتساب فهم عميق للغة العربية بتنوعها وإرثها الغني وللأهمية المتنامية للنماذج اللغوية الكبيرة في مختلف جوانب المجتمع. وستواصل جامعة محمد بن زايد للذكاء الاصطناعي ريادة النماذج اللغوية الكبيرة التي تتميز بالكفاءة والفاعلية والدقة”.

مواضيع مشابهة

وبالتزامن مع إصدار النموذج، عقد مركز “إنسبشن” وجامعة محمد بن زايد للذكاء الاصطناعي شراكة أكاديمية لإتاحة استخدام “جيس” من قبل الفرق المطورة لنماذج اللغة العربية الحالية والمستقبلية بهدف اختباره. وتضمنت قائمة الشركاء الأكاديميين لمركز “إنسبشن” في إطلاق نموذج “جيس” كل من جامعة كارنيغي ميلون، ومدرسة البوليتكنيك الفرنسية، وجامعة حمد بن خليفة، ومختبر المعلوماتية في جامعة شمال باريس، ومختبر “كامل” التابع لجامعة نيويورك أبوظبي، وجامعة إدنبرة. وسوف تبدأ العديد من الهيئات والمؤسسات الإماراتية بالفعل في استخدام النموذج بما فيها وزارة الخارجية، ووزارة الصناعة والتكنولوجيا المتقدمة، ودائرة الصحة – أبوظبي، وشركة بترول أبوظبي الوطنية (أدنوك)، وطيران الاتحاد، وبنك أبوظبي الأول، ومجموعة e&؛ الأمر يوفر رؤى قيّمة تساهم في تحسين النموذج.

تطوير وتدريب نموذج “جيس”

يعد “جيس” نموذجاً لغوياً كبيراً قائماً على المحولات يستخدم العديد من المزايا المتطورة ، بما فيها ميزة الانتباه للتحيزات الخطية (ALiBi) التي تمكّن النموذج من استقراء تسلسل طويل لتوفير سياق أفضل وأدق. ومن التقنيات الرائدة التي يستخدمها النموذج أيضاً دالة تنشط الوحدات الخطية المسورة (SwiGLU)، وتحديد معلمات الحد الأقصى للتحديث بغية تعزيز كفاءة تدريب النموذج ودقته.

وعمل فريقي جامعة محمد بن زايد للذكاء الاصطناعي ومركز “إنسبشن” على تقييم وتعديل نموذج “جيس” مفتوح المصدر، الذي تم تدريبه على مجموعة بيانات مخصصة تضم 116 مليار رمز مميز (tokens) باللغة العربية لاستيعاب تعقيد وتنوع وغنى هذه اللغة، وذلك باستخدام “كوندور جالاكسي 1” (CG-1)، حاسوب الذكاء الاصطناعي الفائق الذي تم الإعلان عن تطويره مؤخراً بالتعاون بين “جي 42” وشركة “سيريبراس سيستمز”. وتضمنت مجموعة البيانات أيضاً 279 مليار رمز مميز باللغة الإنجليزية لضمان الارتقاء بأداء النموذج عبر التحويل ثنائي اللغة. وسيواصل مركز “إنسبشن” وجامعة محمد بن زايد للذكاء الاصطناعي تحسين نموذج “جيس” وتوسيع نطاقه لمواكبة نمو مجتمع مستخدميه.

وبهذه المناسبة، قال أندرو فيلدمان، الرئيس التنفيذي لشركة “سيريبراس سيستمز”: “حققت شراكتنا الاستراتيجية مع ’جي 42‘ نتائج متميزة بالفعل، حيث قدمنا منذ بضعة أسابيع حاسوب ’كوندور جالاكسي‘ الفائق المدعوم بالذكاء الاصطناعي مع قدرة حوسبة متعددة الإكسافلوبس. واليوم تقدم هذه الشراكة إنجازاً استثنائياً آخر يتمثل بالنموذج اللغوي الكبير للغة العربية الموجه إلى مجتمع البرمجيات مفتوحة المصدر. ولطالما حرصنا في ’سيريبراس‘ على تصميم تقنيات متطورة واستكشاف السبل المبتكرة لاستخدامها. ويشكّل ’جيس‘ مساهمة كبيرة إلى مجتمع البرمجيات مفتوحة المصدر العالمي، ودليلاً ملموساً على سهولة استخدام حاسوب ’كوندور جالاكسي 1‘ وقدرته على تطوير نماذج الذكاء الاصطناعي بسرعة فائقة”.

يعد “إنسبشن” المركز الرائد في دولة الإمارات لأبحاث الذكاء الاصطناعي النظرية منها والتطبيقية بمخزونه الغني من مئات الأوراق البحثية المنشورة تحت اسمه، ويتبوأ اليوم مكانة رائدة تتيح له إطلاق العنان للتكامل بين القطاعات الأكاديمية والتجارية والتنظيمية لتوفير بيئة تعاونية تدعم الاستخدام التجاري لتقنيات الذكاء الاصطناعي في مختلف القطاعات.

يمكن تنزيل نموذج “جيس” من موقع “Hugging Face”. كما يمكن للمستخدمين تجربة النموذج عبر الإنترنت من خلال التسجيل عبر الموقع الإلكتروني لجيس وتلقي دعوة للوصول إليه. لمعرفة المزيد حول نموذج “جيس” ومقارنته بالنماذج الأخرى، يمكن قراءة ورقة عمل “جيس” عبر الموقع الإلكتروني.

شارك المحتوى |
close icon