دراسة تكشف مصادر تدريب الذكاء الاصطناعي ومن أين يحصل الذكاء الاصطناعي على المعلومات

 تشير التطورات المذهلة في مجال الذكاء الاصطناعي إلى أنه بات يمتلك فهما عميقا للعالم. مما يجعله قادرا على الإجابة على استفساراتنا وإنشاء المحتوى ببراعة. لكن، وراء هذه القدرات الفائقة، تكمن عملية معقدة وغير مرئية وهي تدريب الذكاء الاصطناعي. فمن أين يحصل الذكاء الاصطناعي على هذه الكمية الهائلة من المعلومات التي تشكل وعيه؟ وما هي المصادر التي يعتمد عليها لتشكيل هذا الذكاء الذي نستخدمه بشكل يومي؟ هذا المقال نستعرض دراسة حديثة تكشف الستار عن مصادر تدريب الذكاء الاصطناعي و كذلك نتعرف على من أين يحصل الذكاء الاصطناعي على المعلومات.

مصادر تدريب الذكاء الاصطناعي

دراسة تكشف مصادر تدريب الذكاء الاصطناعي ومن أين يحصل الذكاء الاصطناعي على المعلومات

الذكاء الاصطناعي الذي كان في السابق مفهومًا طموحًا أصبح الآن واقعًا متناميًا في حياتنا وعملنا. وعندما نطلب إجابات من الذكاء الاصطناعي، سواء كان ذلك ChatGPT أو Perplexity أو جوجل جيميني. قد يتبادر سؤال في أذهاننا وهو من أين تأتي هذه المعلومات؟ الإجابة باختصار كشفت عنها دراسة حديثة تمت بالتعاون بين شركة أبحاث السوق ستاتيستا و كذلك منصة التسويق الرقمي وتحسين محركات البحث Semrush. حيث أظهرت الدراسة أهم المواقع التي تستشهد بها نماذج الذكاء الاصطناعي. كما كشفت كذلك عن من أين يحصل الذكاء الاصطناعي على المعلومات. وإليك أهم 10 مصادر تدريب يعتمد عليها الذكاء الاصطناعي:

  1. ريديت: (40.1%) يعتبر المساهم الأكبر بلا منازع. فمن خلال ملايين المناقشات بين المستخدمين والتجارب المتنوعة، يقدم Reddit بيانات خام مفيدة جدا.
  2. ويكيبيديا: (26.3%) موسوعة إلكترونية تعتمد على مبدأ التحرير الجماعي، حيث يساهم ملايين المتطوعين حول العالم في كتابة وتحرير مقالاتها. كذلك يوجد نظام مراجعة مخصص لضمان دقة المعلومات قدر الإمكان.
  3. يوتيوب: (23.5%) منصة الفيديو الشهيرة التي تضم دروس تعليمية وشروحات و كذلك محتوى متنوع بدون أي مراجعة أو تدقيق.
  4. جوجل: (23.3%) عبارة عن نتائج بحث مجمعة وتصنيفات ومقتطفات.
  5. يلب: (21.0%) يستخدم بكثرة في المراجعات والتوصيات و كذلك رؤى المستهلكين.
  6. فيسبوك: (20.0%) مزيج من مجموعات المجتمع و أيضا الدردشة الاجتماعية وصفحات الأعمال.
  7. أمازون: (18.7%) يوفر معلومات خاصة بمراجعات المنتجات و أيضا يضم بيانات حول رؤى السوق.
  8. تريب أدفايزر: (12.5%) يضم بيانات متعلقة بالسفر وتجارب المستخدمين.
  9. ماب بوكس: ​​(11.3%) يحتوي على بيانات الخرائط و كذلك تحديد الموقع الجغرافي.
  10. أوبن ستريت: (11.3%) يمتلك معلومات جغرافية مفتوحة المصدر مستمدة من المستخدمين.

يمكنك أن تلاحظ أن الذكاء الاصطناعي يستمد معرفته من مصادر متنوعة تشمل المعرفة الموسوعية (ويكيبيديا). والمعرفة الاجتماعية (ريديت، فيسبوك، يوتيوب). و كذلك رؤى المستهلكين (يلب، أمازون، تريب أدفايزر).

اقرأ أيضا: كيف تستفيد من الفرق بين نماذج الذكاء الاصطناعي لخدمة مصلحتك؟

من أين يحصل الذكاء الاصطناعي على المعلومات

دراسة تكشف مصادر تدريب الذكاء الاصطناعي ومن أين يحصل الذكاء الاصطناعي على المعلومات

تعتمد نماذج الذكاء الاصطناعي الكبيرة، مثل ChatGPT و كذلك Gemini على كميات هائلة من البيانات تعرف بمجموعات البيانات الضخمة. يتم جمع هذه البيانات من مصادر متنوعة ومختلفة، لتشكل ما يشبه مكتبة رقمية واسعة يستمد منها الذكاء الاصطناعي معرفته. وإليك الأماكن التي يحصل الذكاء الاصطناعي منها على المعلومات الخاصة به:

مواضيع مشابهة

المواقع

نسبة الاستخدام

إنستجرام

10.9%

ماب كويست

9.8%

وولمارت

9.3%

إيباي

7.7

لينكد إن

5.9%

كورا

4.6%

ياهو

4.4%

تارغت

4.3%

بنترست

4.2%

اقرأ أيضا: كيف تقدر تستخدم الذكاء الاصطناعي بالعربي مجاني ؟

عندما يتعلم الذكاء الاصطناعي من مصادر غير موثوقة

دراسة تكشف مصادر تدريب الذكاء الاصطناعي ومن أين يحصل الذكاء الاصطناعي على المعلومات

في حين أن تنوع المصادر يجعل الذكاء الاصطناعي متعدد الاستخدامات، إلا أنه يثير أيضًا مخاطر جسيمة كالتالي:

  • التضليل والتحيز: منصات مثل ريديت و كذلك فيسبوك رغم أنها تحتوي على تجارب قيّمة، إلا أنها تحتوي أيضًا على شائعات ومعلومات مضللة. وقد تستخدم أنظمة الذكاء الاصطناعي تلك المعلومات على هذه المنصات دون فلترتها.
  • ثم غرف الصدى (Echo Chambers) يخاطر الـ AI عند الاعتماد على بيئات تتسم بتكرار الآراء السائدة و كذلك المعتقدات التي يعتنقها الأفراد مع تجاهل وجهات النظر الأخرى.
  • كذلك الإفتقار إلى الرقابة: قد تساعد مراجعة منتج على أمازون أو منشور على Yelp في الإجابة على استفسارات المستخدمين. لكن تلك البيانات ليست موثوقة كما أنها غير مدعومة بالأبحاث.
  • أيضا التشويه السياقي: قد يلخص الذكاء الاصطناعي سلسلة أو مقطع فيديو دون توضيح مما يؤدي إلى التبسيط المفرط.

وهكذا يمكن القول بأنه إذا كانت بيانات التدريب معيبة، فإن إجابات الذكاء الاصطناعي ستكون هي الأخرى معيبة. ومن ثم سيحصل المستخدم على إجابات مغلوطة وغير صحيحة.

اقرأ أيضا: أهم 30 أداة من أدوات الذكاء الاصطناعي

في الختام، يمكن القول بأن وعي وإدراك الذكاء الاصطناعي ليس سوى انعكاس للمعلومات التي تدرب عليها. فمن صفحات الويب والموسوعات الرقمية إلى الكتب الأكاديمية و كذلك المقالات الإخبارية، يتشكل فهم AI للعالم من البيانات التي يجمعها. هذه المصادر تحدد قدراته وإمكانياته، وتسلط الضوء على ضرورة توخي الحذر بشأن دقة وموثوقية المعلومات التي نستخدمها في تدريب هذه النماذج. ومن ثم، مستقبل الذكاء الاصطناعي يعتمد بشكل مباشر على جودة المصادر التي يتغذى عليها، مما يضع على عاتقنا مسؤولية ضمان أن هذا التقدم التكنولوجي يبنى على أساس متين من المعرفة الهامة والموثوقة.

شارك المحتوى |
close icon