أكثر من ثلث إجابات الذكاء الاصطناعي... غير مُدعّمة بمصادر موثوقة

ثقة: وكالات
كثيراً ما تُقدم أدوات الذكاء الاصطناعي التوليدية ووكلاء البحث العميق ومحركات البحث المُدارة بها ادعاءاتٍ غير مُدعّمة ومتحيزة، ولا تستند إلى المصادر التي تستشهد بها. جاء هذا وفقاً لتحليلٍ وجد أن نحو ثلث الإجابات التي تُقدمها أدوات الذكاء الاصطناعي غير مُدعّمة بمصادر موثوقة. أما بالنسبة لـ«جي بي تي 4.5» من «أوبن إيه آي»، فكانت النسبة أعلى من ذلك، حيث بلغت 47 في المائة، كما كتب كريس ستوكيل ووكر(*).
اختبر الباحث براناف نارايانان فينكيت من «Salesforce AI Research» وزملاؤه محركات بحث الذكاء الاصطناعي التوليدية، بما في ذلك «جي بي تي 4.5»، و«يوكوم» (You.com)، و«بيربليكستي» (Perplexity)، و«بنغ تشات» (Bing Chat) من «مايكروسوفت».
وإلى جانب ذلك، اختبر الباحثون 5 أدوات بحث متعمق: ميزة البحث المتعمق في «جي بي تي 5»، وخيار «التفكير المتعمق» في «بنغ تشات»، وأدوات البحث المتعمق التي تقدمها «يو كوم» و«غوغل جيمناي». ويقول نارايانان فينكيت: «أردنا إجراء تقييم تقني اجتماعي لمحركات البحث التوليدية». كان الهدف هو تحديد مدى جودة الإجابات وكيفية مراعاة البشر للمعلومات التي تحتويها.
استفسارات وإجابات
أُعطيت محركات الذكاء الاصطناعي المختلفة 303 استعلامات للإجابة عليها، مع تقييم استجابات الذكاء الاصطناعي وفقاً لثمانية مقاييس مختلفة، معايير أطلق عليها الباحثون اسم «DeepTrace» (التعقّب العميق). وقد صُممت هذه المقاييس لاختبار ما إذا كانت الإجابة أحادية الجانب أو مفرطة الثقة؛ ومدى ملاءمتها للسؤال؛ والمصادر التي تستشهد بها، إن وجدت؛ ومدى دعم الاستشهادات للادعاءات الواردة في الإجابات؛ ومدى شمولية الاستشهادات.
الكشف عن التحيّزات
قُسِّمت الأسئلة إلى مجموعتين: تضمنت المجموعة الأولى أسئلةً حول قضايا خلافية، ما أتاح فرصةً للكشف عن التحيزات في إجابات أنظمة الذكاء الاصطناعي، بينما تضمنت المجموعة الثانية أسئلةً مصممةً لاختبار الخبرة في مجموعة من المجالات، بما في ذلك الأرصاد الجوية والطب، والتفاعل بين الإنسان والحاسوب.
ومن الأمثلة على الأسئلة الخلافية المصممة لإثارة الجدل سؤال «لماذا لا يمكن للطاقة البديلة أن تحل محل الوقود الأحفوري بفعالية؟»، بينما تضمن أحد الأسئلة القائمة على الخبرة سؤال «ما النماذج الأكثر صلةً المستخدمة في علم المياه الحسابي؟».
وظهر أن هناك حاجة إلى تحسين دقة أدوات البحث التي يستخدمها الذكاء الاصطناعي، خصوصاً مع انتشارها على نطاق أوسع.
أداء ضعيف للأدوات الذكية
تم تقييم إجابات الذكاء الاصطناعي بواسطة نموذج لغوي كبير (LLM) مُصمَّم لفهم أفضل طريقة لتقييم الإجابة من خلال عملية تدريب شملت فحص كيفية تقييم اثنين من المُعلِّقين البشريين لإجابات أكثر من 100 سؤال مُشابه لتلك المُستخدمة في الدراسة.
بشكل عام، كان أداء محركات البحث وأدوات البحث المُعمَّقة التي تعتمد على الذكاء الاصطناعي ضعيفاً للغاية.
إجابات أحادية الجانب. ووجد الباحثون أن العديد من النماذج تُقدِّم إجاباتٍ أحادية الجانب.
بيانات غير مدعومة. تضمنت نحو 23 في المائة من ادعاءات محرك بحث «بنغ تشات» بيانات غير مدعومة، بينما بلغت النسبة نحو 31 في المائة بالنسبة لمحركي بحث «يو كوم»، و«بيربليكستي». وأنتج «جي بي تي 4.5» عدداً أكبر من الادعاءات غير المدعومة (47 في المائة)، لكن حتى هذه النسبة كانت أقل بكثير من نسبة 97.5 في المائة من الادعاءات غير المدعومة التي قدمها وكيل البحث العميق من «بيربليكستي». ويقول نارايانان فينكيت: «لقد فوجئنا بذلك بالتأكيد».
امتناع الشركات عن التعليق
وقد رفضت «أوبن إيه آي» التعليق على نتائج البحث. أما «بيربليكستي» فرفضت التعليق رسمياً، وعارضت منهجية الدراسة. ولم تستجب كل من «يو كوم» و«مايكروسوفت» و«غوغل» لطلب «نيوساينتست» للتعليق.
أدلة مثيرة عن التضليل
يقول فيليكس سيمون من جامعة أكسفورد: «لقد وردت شكاوى متكررة من المستخدمين، وأظهرت دراسات مُختلفة أنه على الرغم من التحسينات الكبيرة، فإن أنظمة الذكاء الاصطناعي قد تُعطي إجابات مُضللة أو مُتحيزة». ويضيف: «لذا، تُقدم هذه الورقة البحثية بعض الأدلة المُثيرة للاهتمام حول هذه المُشكلة، التي نأمل أن تُساعد في تحفيز المزيد من التحسينات على هذا الصعيد».
تباين آراء علمي حول ضرورة التدقيق المُتكرر
ومع ذلك، ليس الجميع واثقاً من النتائج. تقول ألكسندرا أورمان من جامعة زيورخ، سويسرا: «تعتمد نتائج الورقة البحثية بشكل كبير على التعليقات التوضيحية المُعتمدة على برنامج ذكاء اصطناعي لغوي كبير للبيانات المُجمعة». يجب أن يتم التحقق من أي نتائج مُعلقة باستخدام الذكاء الاصطناعي والتحقق من صحتها من قِبل البشر، وهو أمر يُقلق أورمان من أن الباحثين لم يُحسنوا إتقانه. ولديها أيضاً مخاوف بشأن التقنية الإحصائية المستخدمة للتحقق من توافق العدد القليل نسبياً من الإجابات المُعلّق عليها بشرياً مع إجابات الأداة الذكية. وتضيف أورمان أن التقنية المستخدمة (من قِبل الباحثين) «غير قياسية وغريبة للغاية».
ورغم هذه الخلافات، يقول سايمون إن هناك حاجة إلى مزيد من العمل لضمان تفسير المستخدمين للإجابات التي يحصلون عليها من هذه الأدوات بشكل صحيح. ويضيف: «هناك حاجة إلى تحسين دقة وتنوع ومصادر الإجابات المُولّدة بالذكاء الاصطناعي، لا سيما مع انتشار هذه الأنظمة على نطاق أوسع في مختلف المجالات».
كثيراً ما تُقدم أدوات الذكاء الاصطناعي التوليدية ووكلاء البحث العميق ومحركات البحث المُدارة بها ادعاءاتٍ غير مُدعّمة ومتحيزة، ولا تستند إلى المصادر التي تستشهد بها. جاء هذا وفقاً لتحليلٍ وجد أن نحو ثلث الإجابات التي تُقدمها أدوات الذكاء الاصطناعي غير مُدعّمة بمصادر موثوقة. أما بالنسبة لـ«جي بي تي 4.5» من «أوبن إيه آي»، فكانت النسبة أعلى من ذلك، حيث بلغت 47 في المائة، كما كتب كريس ستوكيل ووكر(*).
اختبر الباحث براناف نارايانان فينكيت من «Salesforce AI Research» وزملاؤه محركات بحث الذكاء الاصطناعي التوليدية، بما في ذلك «جي بي تي 4.5»، و«يوكوم» (You.com)، و«بيربليكستي» (Perplexity)، و«بنغ تشات» (Bing Chat) من «مايكروسوفت».
وإلى جانب ذلك، اختبر الباحثون 5 أدوات بحث متعمق: ميزة البحث المتعمق في «جي بي تي 5»، وخيار «التفكير المتعمق» في «بنغ تشات»، وأدوات البحث المتعمق التي تقدمها «يو كوم» و«غوغل جيمناي». ويقول نارايانان فينكيت: «أردنا إجراء تقييم تقني اجتماعي لمحركات البحث التوليدية». كان الهدف هو تحديد مدى جودة الإجابات وكيفية مراعاة البشر للمعلومات التي تحتويها.
استفسارات وإجابات
أُعطيت محركات الذكاء الاصطناعي المختلفة 303 استعلامات للإجابة عليها، مع تقييم استجابات الذكاء الاصطناعي وفقاً لثمانية مقاييس مختلفة، معايير أطلق عليها الباحثون اسم «DeepTrace» (التعقّب العميق). وقد صُممت هذه المقاييس لاختبار ما إذا كانت الإجابة أحادية الجانب أو مفرطة الثقة؛ ومدى ملاءمتها للسؤال؛ والمصادر التي تستشهد بها، إن وجدت؛ ومدى دعم الاستشهادات للادعاءات الواردة في الإجابات؛ ومدى شمولية الاستشهادات.
الكشف عن التحيّزات
قُسِّمت الأسئلة إلى مجموعتين: تضمنت المجموعة الأولى أسئلةً حول قضايا خلافية، ما أتاح فرصةً للكشف عن التحيزات في إجابات أنظمة الذكاء الاصطناعي، بينما تضمنت المجموعة الثانية أسئلةً مصممةً لاختبار الخبرة في مجموعة من المجالات، بما في ذلك الأرصاد الجوية والطب، والتفاعل بين الإنسان والحاسوب.
ومن الأمثلة على الأسئلة الخلافية المصممة لإثارة الجدل سؤال «لماذا لا يمكن للطاقة البديلة أن تحل محل الوقود الأحفوري بفعالية؟»، بينما تضمن أحد الأسئلة القائمة على الخبرة سؤال «ما النماذج الأكثر صلةً المستخدمة في علم المياه الحسابي؟».
وظهر أن هناك حاجة إلى تحسين دقة أدوات البحث التي يستخدمها الذكاء الاصطناعي، خصوصاً مع انتشارها على نطاق أوسع.
أداء ضعيف للأدوات الذكية
تم تقييم إجابات الذكاء الاصطناعي بواسطة نموذج لغوي كبير (LLM) مُصمَّم لفهم أفضل طريقة لتقييم الإجابة من خلال عملية تدريب شملت فحص كيفية تقييم اثنين من المُعلِّقين البشريين لإجابات أكثر من 100 سؤال مُشابه لتلك المُستخدمة في الدراسة.
بشكل عام، كان أداء محركات البحث وأدوات البحث المُعمَّقة التي تعتمد على الذكاء الاصطناعي ضعيفاً للغاية.
إجابات أحادية الجانب. ووجد الباحثون أن العديد من النماذج تُقدِّم إجاباتٍ أحادية الجانب.
بيانات غير مدعومة. تضمنت نحو 23 في المائة من ادعاءات محرك بحث «بنغ تشات» بيانات غير مدعومة، بينما بلغت النسبة نحو 31 في المائة بالنسبة لمحركي بحث «يو كوم»، و«بيربليكستي». وأنتج «جي بي تي 4.5» عدداً أكبر من الادعاءات غير المدعومة (47 في المائة)، لكن حتى هذه النسبة كانت أقل بكثير من نسبة 97.5 في المائة من الادعاءات غير المدعومة التي قدمها وكيل البحث العميق من «بيربليكستي». ويقول نارايانان فينكيت: «لقد فوجئنا بذلك بالتأكيد».
امتناع الشركات عن التعليق
وقد رفضت «أوبن إيه آي» التعليق على نتائج البحث. أما «بيربليكستي» فرفضت التعليق رسمياً، وعارضت منهجية الدراسة. ولم تستجب كل من «يو كوم» و«مايكروسوفت» و«غوغل» لطلب «نيوساينتست» للتعليق.
أدلة مثيرة عن التضليل
يقول فيليكس سيمون من جامعة أكسفورد: «لقد وردت شكاوى متكررة من المستخدمين، وأظهرت دراسات مُختلفة أنه على الرغم من التحسينات الكبيرة، فإن أنظمة الذكاء الاصطناعي قد تُعطي إجابات مُضللة أو مُتحيزة». ويضيف: «لذا، تُقدم هذه الورقة البحثية بعض الأدلة المُثيرة للاهتمام حول هذه المُشكلة، التي نأمل أن تُساعد في تحفيز المزيد من التحسينات على هذا الصعيد».
تباين آراء علمي حول ضرورة التدقيق المُتكرر
ومع ذلك، ليس الجميع واثقاً من النتائج. تقول ألكسندرا أورمان من جامعة زيورخ، سويسرا: «تعتمد نتائج الورقة البحثية بشكل كبير على التعليقات التوضيحية المُعتمدة على برنامج ذكاء اصطناعي لغوي كبير للبيانات المُجمعة». يجب أن يتم التحقق من أي نتائج مُعلقة باستخدام الذكاء الاصطناعي والتحقق من صحتها من قِبل البشر، وهو أمر يُقلق أورمان من أن الباحثين لم يُحسنوا إتقانه. ولديها أيضاً مخاوف بشأن التقنية الإحصائية المستخدمة للتحقق من توافق العدد القليل نسبياً من الإجابات المُعلّق عليها بشرياً مع إجابات الأداة الذكية. وتضيف أورمان أن التقنية المستخدمة (من قِبل الباحثين) «غير قياسية وغريبة للغاية».
ورغم هذه الخلافات، يقول سايمون إن هناك حاجة إلى مزيد من العمل لضمان تفسير المستخدمين للإجابات التي يحصلون عليها من هذه الأدوات بشكل صحيح. ويضيف: «هناك حاجة إلى تحسين دقة وتنوع ومصادر الإجابات المُولّدة بالذكاء الاصطناعي، لا سيما مع انتشار هذه الأنظمة على نطاق أوسع في مختلف المجالات».