إذا كنت تعرف كيفية الإجابة على هذا السؤال، فأنت أذكى من ChatGPT

لقد اختبر الباحثون العديد من نماذج الذكاء الاصطناعي على سؤال منطقي بسيط وفشلت جميعها تقريبًا. هل يمكنك العثور على الجواب؟

الاعتمادات: 123RF

في رأيك،هل الذكاء الاصطناعي متفوق على البشر؟؟ وهذا ليس موضوعا من مواضيع بكالوريا الفلسفة في المعاينة، بل سؤال يمكننا أن نطرحه على أنفسنا بشكل مشروع عندما نرى التقدم المبهر لهذه التكنولوجيا. بل إن الأمر مخيف في بعض المناطق.الذكاء الاصطناعي يتخرج من كلية الطب بسهولةعلى سبيل المثال، ويعمل بالفعل علىتحديد الأمراض التي فشل العديد من الخبراء في العثور عليها. الأمر بسيط جدًا:قد يكون الذكاء الاصطناعي أكثر إنسانية منا.

ومع ذلك، واحديذاكرمن منظمة LAION يظهر أننا ما زلنا بعيدين عنهيمنة الآلات. تم اختبار العديد من نماذج اللغة:جي بي تي-3,جي بي تي-4وآخرونGPT-4o d'OpenAI,إغلاق 3 عملأنثروبيك,الجوزاء جوجل,شعلة الهدف,ميسترال ميكسترال... بروتوكول الاختبار بسيط للغاية لأنه يتضمن الاستجابة لما يسمىمشكلة "أليس في بلاد العجائب".. لقد فشل الجميع تقريبًا.

لا تستطيع أنظمة الذكاء الاصطناعي الإجابة بشكل صحيح على هذا السؤال المنطقي البسيط

وهنا السؤال المطروح:"أليس لديها [X] إخوة وأيضًا [Y] أخوات. كم عدد الأخوات لدى شقيق أليس؟". يتم استخدام العديد من الاختلافات، واستجابات الذكاء الاصطناعي مذهلة. اللاما 3 من ميتا كانت بعنوان "أليس لديها أربعة إخوة وأخت واحدة"ويوضح أن كل أخ لديه ... أخت واحدة فقط، أليس نفسها. باستثناء ذلكلديهم 2 لكل منهما، ذكرت أليس والأخت الأخرى. أسوأ جزء هو ذلكيغرق الذكاء الاصطناعي في تفسيراته مع القناعة.

إقرأ أيضاً –يمكن لهذا الذكاء الاصطناعي إنشاء روبوت يمشي خلال 26 ثانية، مع اقتراب المدمر؟

وكما تشير الدراسة، "[...]كما تعبر النماذج أيضًا عن الثقة المفرطة في حلولها المعيبة، في حين تقدم تفسيرات سخيفة في كثير من الأحيان[…]لتبرير ودعم صحة إجاباتهم الخاطئة بشكل واضح، وجعلها معقولة". وفي النهاية وحيداحصل GPT-4o على مرتبة الشرف من خلال الاستجابة الصحيحة في 65% من الحالات، اعتمادا على الصيغ المختارة. أصبحت هذه النتائج أكثر إثارة للدهشة منذ ذلك الحيننماذج اللغة التي تم اختبارها تحقق درجات جيدة في MMLU، من أجل "فهم اللغة متعدد المهام"، والذييقيم قدرة الذكاء الاصطناعي على حل المشكلات. ولا يفسر الباحثون هذا التناقض، لكنهم يشيرون إلى ضرورة مراجعة القياسات.


اسأل عن أحدث لدينا!