جدل حول دقة معايير الذكاء الاصطناعي وأداء النماذج الجديدة

تاريخ آخر تحديث 2025-02-24 11:52 صباحًا

تاريخ النشر 2025-02-24

1 د للقراءة

صراحة نيوزـ تصاعدت المناقشات حول معايير الذكاء الاصطناعي وطريقة الإبلاغ عنها، بعدما اتهم موظف في شركة “OpenAI” شركة “xAI” التابعة لإيلون ماسك بنشر نتائج مضللة حول أداء أحدث نموذج ذكاء اصطناعي لها، “غروك 3”. جاء ذلك بعد نشر xAI رسمًا بيانيًا يوضح أداء “Grok 3” في AIME 2025، وهي مجموعة من أسئلة الرياضيات الصعبة.

رغم دفاع إيغور بابوشكين، المؤسس المشارك في xAI، عن صحة النتائج، أشار موظفو “OpenAI” على منصة إكس إلى أن الرسم البياني أغفل ذكر درجة AIME 2025 لنموذج “o3-mini-high” في اختبار “cons@64”. كما تبين أن درجات “Grok 3 Reasoning Beta” و”Grok 3 mini Reasoning” في AIME 2025 عند “@1” أقل من درجة “o3-mini-high”.

يأتي هذا في وقت تُستخدم فيه اختبارات AIME لاستكشاف قدرات الذكاء الاصطناعي في الرياضيات، إلا أن بعض الخبراء شككوا في صحتها كمعيار موثوق. من جانبه، اتهم بابوشكين شركة “OpenAI” بنشر مخططات معيارية مضللة في الماضي عند مقارنة أداء نماذجها الخاصة.

قد يعجبك ايضاً