تدهور دماغ الذكاء الاصطناعي: كيف تضر بيانات وسائل التواصل الاجتماعي منخفضة الجودة بالذكاء الاصطناعي
يحذر عدد متزايد من الأبحاث من أن تدهور دماغ الذكاء الاصطناعي—وهو انخفاض في التفكير والدقة ناتج عن التعرض لبيانات رديئة الجودة أصبح مصدر قلق خطير في تطوير نماذج اللغة الكبيرة (LLMs). كشفت مسودة جديدة نُشرت على arXiv في 15 أكتوبر أنه عندما يتم تدريب أنظمة الذكاء الاصطناعي على محتوى وسائل التواصل الاجتماعي المليء بالمعلومات المضللة والإثارة والأخطاء النحوية، تنخفض قدرتها على التفكير واسترجاع المعلومات الدقيقة بشكل كبير.
عندما يتعلم الذكاء الاصطناعي من المعلمين الخطأ
في علم البيانات، كان “القمامة تدخل، القمامة تخرج” قاعدة أساسية منذ فترة طويلة. تضع هذه الدراسة الجديدة هذا التحذير في منظوره الصحيح. وجد الباحثون بقيادة تشانغيانغ وانغ من جامعة تكساس في أوستن أن نماذج الذكاء الاصطناعي المدربة على بيانات وسائل التواصل الاجتماعي منخفضة الجودة غالباً ما تتخطى خطوات التفكير أو تقدم إجابات خاطئة. كلما زادت البيانات الرديئة المدرجة، كانت النتائج أسوأ—مما يُظهر حالة واضحة من تدهور دماغ الذكاء الاصطناعي.
اختبر الفريق ذلك من خلال تدريب نماذج مفتوحة المصدر مثل Llama 3 من ميتا وQwen من علي بابا، باستخدام مليون منشور عام من X (تويتر سابقاً). كافح كلا النموذجين للحفاظ على الاتساق المنطقي عندما احتوت مجموعة البيانات على عدد كبير جداً من المنشورات القصيرة أو السطحية. حتى النماذج الموجهة للتفكير مثل Qwen أدت أداءً ضعيفاً في ظل هذه الظروف.
تراجع تفكير الذكاء الاصطناعي وانحراف الشخصية
بالإضافة إلى الأخطاء التقنية، لاحظ الباحثون تغييرات في شخصية النماذج. قبل التدريب، أظهر نموذج Llama سمات إيجابية شبيهة بالإنسان مثل الانفتاح والضمير. بعد التعرض للبيانات الرديئة، بدأ في إظهار النرجسية وحتى الميول السيكوباتية في التقييمات النفسية. هذا “الانحراف الشخصي” يعكس كيف يمكن للبيئات السامة عبر الإنترنت أن تشكل السلوك البشري، وهو تشابه مثير للاهتمام ومثير للقلق.
المحاولات لتصحيح هذه المشاكل من خلال تعديل المطالبات أو خلط بيانات عالية الجودة قدمت تعافياً جزئياً فقط. استمرت النماذج في تخطي خطوات التفكير، مما يشير إلى أن تدهور دماغ الذكاء الاصطناعي قد يكون صعب العكس بمجرد حدوثه.
لماذا تبقى جودة البيانات الأهم
يقول الخبراء أن هذه النتائج تؤكد مبدأً أساسياً واحداً في الذكاء الاصطناعي: جودة البيانات هي كل شيء. أكد ستان كارناسيوس من جامعة كوينزلاند أن “تنظيم البيانات بعناية” أمر بالغ الأهمية لمنع تدهور دماغ الذكاء الاصطناعي. يمكن أن يحمي تصفية المحتوى منخفض الجودة أو العاطفي أو المدفوع بالنقرات قدرة نماذج اللغة على التفكير.
مع بدء شركات مثل LinkedIn في استخدام بيانات المستخدمين العامة لتدريب الذكاء الاصطناعي التوليدي، تثير هذه الدراسة أسئلة أخلاقية وعملية حول نوع المحتوى الذي يجب أن يغذي أنظمة الذكاء الاصطناعي في المقام الأول. إذا استمرت وسائل التواصل الاجتماعي في الهيمنة كمصدر للبيانات، فإن خطر تدهور دماغ الذكاء الاصطناعي سيزداد فقط.
نحو مستقبل أكثر صحة للذكاء الاصطناعي
لضمان التطوير المستدام للذكاء الاصطناعي، يدعو الباحثون إلى تصفية أفضل ومجموعات بيانات متوازنة وشفافية في مصادر التدريب. هناك حاجة لدراسات أوسع نطاقاً لتحديد ما إذا كان يمكن عكس تأثيرات البيانات منخفضة الجودة بمعلومات نظيفة ومنظمة بشكل جيد. الرسالة واضحة: بينما يغذي البشر نماذج الذكاء الاصطناعي بسلوكنا عبر الإنترنت، فإن جودة هذا المدخل تشكل الذكاء الذي نحصل عليه في المقابل. قد يعتمد تجنب تدهور دماغ الذكاء الاصطناعي بدرجة أقل على خوارزميات أذكى وأكثر على بيانات أنظف.
اقرأ أيضاً: رقاقة العين من ستانفورد لاستعادة البصر: عصر جديد من استعادة الرؤية



