يواجه فيلم Claude Fable 5 من أنثروبيك ردود فعل متزايدة بعد إعادة إصداره في الأول من يوليو. يدعي المستخدمون أن الحواجز الأمنية الأكثر صرامة قد أضعفت الترميز وتحسين الأخطاء وأداء الوكلاء في النموذج الرئيسي.
أفادت مجموعة BridgeMind بانخفاض حاد في النقاط عبر مجموعة BridgeBench الخاصة بها. وفي الوقت نفسه، تؤكد أنثروبيك أن النموذج الأساسي لم يتغير وتنسب الاحتكاك إلى تصنيفات السلامة الأكثر إحكاما.
انهيار نتائج معيار كلود فابل 5 بعد إعادة الإصدار
أعادت بريدجمايند عرض نسخة 1 يوليو من فابل 5 وسجلت تراجعات حادة. انخفض التصحيح من 86.2 إلى 25.9، وانخفض معدل إعادة الهيكلة من 73.6 إلى 38.4، وانخفض التعامل مع الهلوسة من 75.9 إلى 61.7.
الآليات وراء هذه الأرقام مهمة. تم إكمال ثلاث فقط من أصل 12 مهمة تصحيح دون العودة إلى كلود أوبوس 4.8، وكل مهمة بديلة لم تحقق أي نتائج.
لذلك، يعكس الانهيار المهام المحجوبة أكثر من التفكير الأضعف.
أكدت BridgeMind أن Fable 5 يتوافق مع شكلها في يونيو عندما تنتهي المهمة.
"النموذج لم يزداد سوءا. لقد تم حبسها،" أشاروا.
تابعنا على X للحصول على آخر الأخبار فور حدوثها
الجدول الزمني يفسر التوتر. أطلقت أنثروبيك لعبة Fable 5 في 9 يونيو، وأوقفتها واشنطن بعد ثلاثة أيام. رفعت الجهات التنظيمية ضوابط التصدير في 30 يونيو، بعد أربعة أيام من إعادة الوصول إلى ميثوس 5 لحوالي 100 مؤسسة أمريكية.
الوصول المستعاد يحمل أيضا حدودا. تستمد Fable 5 من حدود الاستخدام الأسبوعية بنسبة 50٪ فقط حتى 7 يوليو، ثم تنتقل إلى اعتمادات الاستخدام المدفوعة.
تدافع أنثروبيك عن هامش الأمان الأوسع
تناولت أنثروبك هذا التبادل في بيان صدر في 30 يونيو. قالت الشركة إنها وسعت هامش الأمان عمدا، مما يعني أن المصنفين الآن يحجب الطلبات التي ربما تكون حميدة. أفاد باحثو أمازون أن المرشح المحسن يوقف تقنية التجاوز (الالتفاف)، حسبما أفاد باحثو أمازون في أكثر من 99٪ من المحاولات.
الطلبات المحجوبة تتحول إلى Opus 4.8، ويتلقى المستخدمون إشعارا. ومع ذلك، اعترفت Anthropic بأن علامات المرشح تعطي عملا أكثر شرعية في البرمجة والتصحيح من قبل.
كما أظهرت اختباراتها أن فابل 5 لم يكن يشكل خطرا فريدا. حددت الطرازات المنافسة، بما في ذلك GPT-5.5 وKimi K2.7، نفس الثغرات.
تقول أنثروبيك إن باحثي وزارة التجارة الأمريكية اختبروا كلا النسختين الاحتياطيتين وحكموا عليهما بقوة استثنائية.
المخاطر تتجاوز دورة منتج واحدة. دفع التعليق أوروبا إلى استمالة Anthropic، بينما تكتسب نماذج الذكاء الاصطناعي الصينية تقدما في مختبرات الحدود الأمريكية.
تقوم شركة Anthropic الآن بصياغة إطار عمل لشدة الجيلبريك مع أمازون ومايكروسوفت وجوجل. ما إذا كانت المصنفات ستتخلص من إيجابيات كاذبة بسرعة قد يحدد ما إذا كان المستخدمون المحترفون سيبقون أم ينخفون.









