الإصدارات الجديدة من ChatGpt أكثر قوة ... لكن أعظمها الأكبر يزداد سوءًا

تدعي Openai أنها عبرت علامة فارقة مع أحدث ذكاءها الاصطناعي. ومع ذلك ، تكشف الدراسة عن ضعف غير متوقع. أحدث النماذج تنتج أخطاء أكثر من أسلافها.

ل 'الذكاء الاصطناعييتطور بسرعة ، ولكنالعيوب لا تزال قائمة. قام Openai بنشر بيانات عننماذج O3 و O4-MINI الجديدة ، التي من المفترض أن تكون الأكثر كفاءة حتى الآن. ومع ذلك ، فإن هذه الذكاء الاصطناعي تقدم أيزيدتميزت منالهلوسة. هذه الظاهرة تُعينالأخطاءجاد حيث الذكاء الاصطناعييخترع الحقائق، التابعدراساتأوالامتيازات. مشكلة مقلقة لأن هذه المعلومات تبدومعقوللمستخدمي المشبوهة للغاية. لا يزال عددهم معيارًا رئيسيًا لـتقييم موثوقية النموذج.

الأرقام نهائية. يشير Openai إلى ذلكO4-MINIهلوسة48 ٪ من الحالاتتم اختباره باستخدام أداة personqa الداخلية أيضًاثلاث مرات أكثرماذانموذج O1. النموذج O3، ولكن أكبر ومن المفترض أن تكون أكثر موثوقية ، ينتج أيضًا أخطاء في33 ٪ من الردود، ضعف ما هو السابق. هذا التطور مفاجئ لأنه ، كقاعدة عامة ، يميل كل جيل جديد من النماذج إلى تقليل هذه المشكلات. هنا ، على الرغم من التقدم في الدقة الشاملة ، فإن خطر الحصول علىتزداد المعلومات الخاطئة.

نماذج O3 و O4-MINI هلوسة أكثر على الرغم من قدرتها المتزايدة على التفكير

صمم Openai نماذجه الحديثة للاستعانة بمصادر خارجية تفكيرها ، مع عرض مراحل الانعكاس لمزيد من الشفافية. هذا النهج ، على الرغم من الواعدين ، لا يمنع ظهور المعلومات الخاطئة. تقرير مستقل عنترجمةكشفت أن O3اختراعأحياناالقدرات التي لا يملكها، مثل تشغيل الرمز على جهاز MacBook وهمي. والأسوأ من ذلك ، حتى في مواجهة تصحيح المستخدم ، الأخيرمستمر في خطأه. هذا يدعو إلى التشكيك في الموثوقية الحقيقية لهذه الأدوات ، ولكن المقدمة أكثر صرامة.

يخبر الخبراء عدة فرضيات لشرح هذه الظاهرة. التابعاختيار التصميم، كنتائج تستند إلى النتائج ، يمكنسوء الهلوسةق. بالإضافة إلى ذلك ، كان Openai قد قلل من مراحل اختبار السلامة لتسريع تطوير نماذجها. هذه الاستراتيجية ، إذا سمحتابتكار، يعرض المستخدمينالمزيد من المحتوى الخاطئ. في انتظار حلول أفضل ، لا يزال الحذر ضروريًا: حتى الذكاء الاصطناعي الأكثر تقدماً يجب استخدامه بمظهر حرجة.

اسألنا الأخير!

يستخدم جهاز Android Tablet AI لمساعدتك في اللعب ، عديمة الفائدة أو ضرورية؟
على وشك الوصول إلى Lenovo New Legion Tab 4 للوصول إلى السوق. إنها تأخذ وظائف الذكاء الاصطناعي التي يجب أن تثري تجربة الألعاب. على شبكاتها الاجتماعية الصينية ، بدأت لينوفو في إزعاج الخروج ...
أقراص
إليك ما تحتفظ Apple بجهاز iPhone مع تحديث iOS 18.5
في انتظار iOS 19 ، لا يزال تحديث iOS 18.5 قيد التطوير ويخطط للنشر في الأسابيع المقبلة. فيما يلي الميزات الجديدة التي يجب أن نكون مؤهلين لها على iPhone الخاص بنا. تحديث إلى ...
iPhone
تعبت من ديكبيكس؟ تضيف رسائل Google أخيرًا حلًا لإنقاذك ذلك
Google على استعداد لنشر خيار "مضاد لـ Dadkpicks" على رسائل Google ، وهو تطبيق البريد الإلكتروني الافتراضي للهواتف الذكية Android. يهدف إلى حماية المستخدمين من المحتوى الحساس الذي قد يتلقونه عليه. دعونا نرى كيف يعمل. مضاعف قوي ...
التطبيقات
أوروبا تفوز بفوز كبير على بطارية هاتفك الذكي التالي
اعتبارًا من 20 يونيو 2025 ، سينتظر الاتحاد الأوروبي علامة Eprel لجميع الهواتف الذكية والأجهزة اللوحية المباعة في البلدان الأعضاء. بالإضافة إلى الاضطرار إلى عرض ملصق طاقة على أجهزتهم ، سيتعين على الشركات المصنعة أيضًا طي ...
الهواتف الذكية Android
Pirates يريدونها على بطاقة الائتمان الخاصة بك مع هذا التحويل الهائل من الاتصالات على هاتفك الذكي
تهديد جديد يستهدف بطاقتك المصرفية مباشرة. يستخدم مجرمو الإنترنت طريقة غير مسبوقة لتجاوز السلامة بدون اتصال. تعتمد هذه التقنية السرية على عيب غير متوقع على هاتفك الذكي. تتطور التهديدات التي تهدف إلى مدفوعات الهاتف المحمول بسرعة ....
Android Security
Nintendo Switch 2: السعر ، تاريخ الإصدار ، ميزات جديدة ، كل ما نعرفه عن وحدة التحكم التي ستغير كل شيء
يصل Nintendo Switch 2 قريبًا ومن المتوقع أن يكون اللاعبون ثابتًا. في هذه الحالة ، سنقوم بتجميع الأساسيات لمعرفة وحدة التحكم. تاريخ الإصدار والسعر والألعاب والتصميم ، نخبرك بكل شيء. في عام 2017 ، ...
نينتندو
نعلم أخيرًا تاريخ إصدار Star Wars Outlaws على Switch 2
تم التخطيط لآخر لعبة Star Wars ، Outlaws ، على Switch 2. نحن نعرف الآن متى يمكننا أن نغمر أنفسنا في المغامرة مباشرة من وحدة التحكم Nintendo التالية. منذ وقت طويل ، في مجرة ...
نينتندو
لن تخمن أبدًا التعريفة الجمركية الوهمية التي يريد ترامب فرضها على الألواح الشمسية
يعلن الرئيس دونالد ترامب عن المبلغ الذي قد يزيد من الضرائب على استيراد الألواح الشمسية من مناطق معينة من العالم. الرقم هو العقل. أسعار الحرب تستمر. منذ انتخاباته الأولى وعودته ...
أخبار
هل Gemini AI مجاني على هواتف Samsung Galaxy الذكية ، ولكن من الذي يدفع حقًا مشروع القانون الفلكي؟ سوف تفاجأ
خلال محاكمة مكافحة الاحتكار ، تعلمنا كيف كانت Samsung تفعل لتقديم Gemini AI المجاني على هواتفها الذكية في Galaxy. هناك شخص يدفع الفاتورة في مكانه. هواتفنا الذكية لا تصل أبدًا فارغة. عندما نضيء لهم ...
أخبار
سوف يستكشف هذا الأسطول من الأقمار الصناعية أصول الكون من الجانب المخفي من القمر
يريد مشروع الفضاء الأوروبي كشف أسرار أصول الكون. سيتم وضع الحل الأصلي في مدار حول القمر لالتقاط إشارات راديو غير مرئية من الأرض. اكتشافات جديدة يمكن أن تغير فهمنا لـ ...
فضاء

نماذج O3 و O4-MINI هلوسة أكثر على الرغم من قدرتها المتزايدة على التفكير

Related articles

Pixel 6a: ستطلق Google الهاتف الذكي في 26 مايو 2022 مع Pixel Watch

سوف يتجنب WhatsApp أخيرًا مكالمات الفيديو المزعجة بفضل هذا الخيار الجديد

بطاقة SIM الفرنسية Samsung S8 محظورة

برنامج تعليمي سهل لعمل روت لجهاز Onda V972

مشاكل ملفات بطاقة SD

Firefox: تقوم Mozilla بتعطيل مفتاح Backspace على لوحة المفاتيح لتجنب وقوع الحوادث