الإصدارات الجديدة من ChatGpt أكثر قوة ... لكن أعظمها الأكبر يزداد سوءًا

تدعي Openai أنها عبرت علامة فارقة مع أحدث ذكاءها الاصطناعي. ومع ذلك ، تكشف الدراسة عن ضعف غير متوقع. أحدث النماذج تنتج أخطاء أكثر من أسلافها.

الاعتمادات: 123RF

ل 'الذكاء الاصطناعييتطور بسرعة ، ولكنالعيوب لا تزال قائمة. قام Openai بنشر بيانات عننماذج O3 و O4-MINI الجديدة ، التي من المفترض أن تكون الأكثر كفاءة حتى الآن. ومع ذلك ، فإن هذه الذكاء الاصطناعي تقدم أيزيدتميزت منالهلوسة. هذه الظاهرة تُعينالأخطاءجاد حيث الذكاء الاصطناعييخترع الحقائق، التابعدراساتأوالامتيازات. مشكلة مقلقة لأن هذه المعلومات تبدومعقوللمستخدمي المشبوهة للغاية. لا يزال عددهم معيارًا رئيسيًا لـتقييم موثوقية النموذج.

الأرقام نهائية. يشير Openai إلى ذلكO4-MINIهلوسة48 ٪ من الحالاتتم اختباره باستخدام أداة personqa الداخلية أيضًاثلاث مرات أكثرماذانموذج O1. النموذج O3، ولكن أكبر ومن المفترض أن تكون أكثر موثوقية ، ينتج أيضًا أخطاء في33 ٪ من الردود، ضعف ما هو السابق. هذا التطور مفاجئ لأنه ، كقاعدة عامة ، يميل كل جيل جديد من النماذج إلى تقليل هذه المشكلات. هنا ، على الرغم من التقدم في الدقة الشاملة ، فإن خطر الحصول علىتزداد المعلومات الخاطئة.

نماذج O3 و O4-MINI هلوسة أكثر على الرغم من قدرتها المتزايدة على التفكير

صمم Openai نماذجه الحديثة للاستعانة بمصادر خارجية تفكيرها ، مع عرض مراحل الانعكاس لمزيد من الشفافية. هذا النهج ، على الرغم من الواعدين ، لا يمنع ظهور المعلومات الخاطئة. تقرير مستقل عنترجمةكشفت أن O3اختراعأحياناالقدرات التي لا يملكها، مثل تشغيل الرمز على جهاز MacBook وهمي. والأسوأ من ذلك ، حتى في مواجهة تصحيح المستخدم ، الأخيرمستمر في خطأه. هذا يدعو إلى التشكيك في الموثوقية الحقيقية لهذه الأدوات ، ولكن المقدمة أكثر صرامة.

يخبر الخبراء عدة فرضيات لشرح هذه الظاهرة. التابعاختيار التصميم، كنتائج تستند إلى النتائج ، يمكنسوء الهلوسةق. بالإضافة إلى ذلك ، كان Openai قد قلل من مراحل اختبار السلامة لتسريع تطوير نماذجها. هذه الاستراتيجية ، إذا سمحتابتكار، يعرض المستخدمينالمزيد من المحتوى الخاطئ. في انتظار حلول أفضل ، لا يزال الحذر ضروريًا: حتى الذكاء الاصطناعي الأكثر تقدماً يجب استخدامه بمظهر حرجة.


اسألنا الأخير!