العربية

منشور BridgeBench الفيروسي يدعي أن Claude Opus 4.6 تم "إضعافه"، والمنتقدون يصفونه بعلم سيئ

  • ادعى منشور فيروسي على X أن هلوسات Claude Opus 4.6 ارتفعت بنسبة 98%.
  • وجد النقاد أن المقارنة استخدمت أحجام اختبارات مختلفة، وليست معايير متساوية.
  • يُظهر التحليل بنفس المهمة تغيراً طفيفاً فقط، ضمن نطاق التغير الطبيعي للذكاء الاصطناعي.
Promo

ادعى بريدجمايند AI أن كلاود أوبوس 4,6 تم تخفيضه سرا بعد إعادة اختبار معيار الهلوسة. وقد أثار هذا المنشور الفيروسي منذ ذلك الحين انتقادات حادة بسبب المنهجية المعيبة.

أثار هذا الادعاء جدلا واسعا حول ما إذا كانت شركات الذكاء الاصطناعي تقوم بتخفيض نماذجها المدفوعة بهدوء لتقليل التكاليف.

ممول
ممول

يدعي بريدجمايند ارتفاعا بنسبة 98% في الهلوسات

نشر فريق بريدجمايند، الذي يقف وراء معيار بريدجبينش للبرمجة، أن كلاود أوبوس 4,6 انخفض من المركز الثاني إلى المركز العاشر في قائمة الهلوسة لديهم. وتم الإبلاغ عن انخفاض الدقة من 83,3% إلى 68,3%.

كتبوا في منشورهم أن بريدجبينش أثبت ذلك، حيث تصدر الأسبوع الماضي كلاود أوبوس 4,6 المركز الثاني في معيار الهلوسة بدقة 83,3%. واليوم تم إعادة اختبار كلاود أوبوس 4,6 وسقط إلى المركز العاشر في القائمة بدرجة دقة بلغت فقط 68,3%. رابط.

قدم المنشور ذلك كدليل على "انخفاض مستويات التفكير". ومع ذلك، يكشف التدقيق العميق في البيانات الأساسية قصة مختلفة.

يقول النقاد إن المقارنة معيبة من الأساس

وفقا لعالم الحاسوب بول كالكرافت، فإن هذا الادعاء هو "علم سيء للغاية"، مشيرا إلى وجود مشكلة منهجية حرجة.

علق كالكرافت بأن الاختبار اليوم تم على 30 مهمة فقط، بينما كانت النقاط السابقة على ستة مهام فقط. أما النتائج عن ستة مهام متشابهة، فسجل اليوم 85,4% في مقابل 87,6% سابقا. وأغلب الفرق ناتج عن حالة تزوير إضافية واحدة دون تكرار، وهذا ضمن هامش الضجيج الإحصائي بسهولة. رابط.

جاءت النقاط المرتفعة الأصلية من ستة مهام معيارية فقط. أما في إعادة الاختبار الجديدة، فجرت توسعة المعيار إلى 30 مهمة.

ممول
ممول

أما في ستة مهام متداخلة، فكان الأداء شبه متطابق، حيث انخفض فقط من 87,6% إلى 85,4%.

جاء هذا الفرق الضئيل أساسًا من حالة تزوير إضافية واحدة في إحدى المهام. وبدون تكرار الاختبارات، يقع ذلك بشكل كامل ضمن التباين الإحصائي الطبيعي لنماذج الذكاء الاصطناعي.

تعمل النماذج اللغوية الكبيرة بشكل غير حتمي، ويمكن لنتيجة سيئة واحدة على عينة صغيرة أن تغير النتائج بشكل ملحوظ.

اجعل الإحباطات الأوسع تنعش هذا السرد

مع ذلك، أثار المنشور جدلاً واسعاً. منذ إطلاقه في فبراير 2026، واجه كلود أوبوس 4,6 شكاوى متكررة بشأن تراجع الجودة الملحوظ.

يبلغ المطورون عن ردود أقصر، وضعف في اتباع التعليمات، وانخفاض في عمق الاستدلال خلال ساعات الذروة.

يعود بعض ذلك إلى تغييرات متعمدة في المنتج. أدخلت أنتروبيك عناصر تحكم في التفكير التكيفي تسمح للنموذج بضبط ميزانية الاستدلال ذاتياً. تم تعيين مستوى الجهد الافتراضي لاحقاً إلى متوسط، مع إعطاء الأولوية للكفاءة على أقصى عمق.

كشف تحليل مستقل لأكثر من 6 800 جلسة لكلود كود أن عمق الاستدلال انخفض بحوالي 67% بحلول أواخر فبراير.

انخفضت نسبة قراءة الملفات للنموذج قبل تعديل الكود من 6,6 إلى 2,0. ذلك يوحي بأنه حاول إصلاح الكود الذي بالكاد قام بمراجعته.

ماذا يعني هذا لمستخدمي الذكاء الاصطناعي

يعكس هذا توتراً متزايداً في صناعة الذكاء الاصطناعي. تعمل الشركات على تحسين النماذج من حيث التكلفة والحجم بعد الإطلاق، بينما يتوقع المستخدمون الكثيفون أداءً ثابتاً في الذروة. الفجوة بين هذه الأولويات تقوض الثقة.

استناداً إلى الأدلة المتاحة، تشير البيانات من بريدجبنش إلى أنه لا يوجد دليل على تخفيض متعمد. كانت المقارنة بين النتائج غير متكافئة، وكانت النتائج المتداخلة متطابقة تقريباً.

مع ذلك، فإن الإحباط الكامن ليس بلا أساس تماماً. أدت عناصر التحكم في الحوسبة التكيفية وتحسينات مستوى الخدمة إلى تغيير سلوك كلود أوبوس 4,6 فعلياً. للمطورين الذين يعتمدون على نتائج ثابتة، تشكل هذه التغييرات أهمية كبيرة.

لم تصدر أنتروبيك حتى 13 أبريل بياناً علنياً بشأن مزاعم بريدجبنش.

لقراءة أحدث تحليلات سوق العملات المشفرة من BeInCrypto، انقر هنا.

تنبيه

جميع المعلومات المنشورة على موقعنا الإلكتروني تم عرضها على أساس حسن النية ولأغراض المعلومات العامة فقط. لذا، فأي إجراء أو تصرف أو قرار يقوم به القارئ وفقاً لهذه المعلومات يتحمل مسؤوليته وتوابعه بشكل فردي حصراً ولا يتحمل الموقع أية مسؤولية قانونية عن هذه القرارات.

ممول
ممول