لا تكون جميع نصوص الذكاء الاصطناعي قابلة للكشف بدرجة متساوية. إليك نتائج معيارنا لكل نموذج — عائلات النماذج التي يلتقطها كاشفنا بدقة شبه مثالية، والتي يكافح معها، وما يخبرنا ذلك عن اختيار سير عمل الكشف.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
مُرتَّب من الأسهل إلى الأصعب كشفًا في مجموعة التحقق لدينا. الفارق واسع — AUC على بعض عائلات النماذج يتجاوز 0.99 بينما تنخفض أخرى إلى مستوى 0.80. صعوبة الكشف ترتبط بحجم النموذج ودقة الضبط بالتعليمات وتباين المخرجات.
لمنهجية التفصيل الكاملة بحسب النموذج المولِّد، انظر صفحة معيار الدقة. تلخّص هذه المقالة الآثار العملية لتلك البيانات للمستخدمين الذين يختارون الكاشف الجدير بالثقة والنموذج الذي يستخدمونه.
GPT-3.5 هو النموذج الحديث الأسهل كشفًا — AUC [AUC: ?] في مجموعتنا. تبقى القطع الجيلية الموروثة (التكرار، والتحفظ، والسجل الباهت) واضحة. ينخفض GPT-4 إلى AUC [AUC: ?]، وGPT-4o إلى [AUC: ?]، عاكسًا معايرة تدريجية أفضل. GPT-5.x هو الأصعب في العائلة — AUC [AUC: ?] — لأن فريق الضبط بالتعليمات استهدف صراحةً إزالة آثار الكشف.
الآثار العملية: سير العمل الأكاديمي القلق من الغش بـGPT-3.5 القديم يمكنه الاعتماد بشكل كبير على الكشف وحده. سير العمل القلق من GPT-5 يحتاج إلى دمج الكشف مع أدلة سياقية، كما هو موصوف في دليل سير عمل المعلم لدينا.
تُهم إعدادات درجة الحرارة. المخرجات منخفضة الحرارة (t≤0.5) أسهل كشفًا لأنها تُركّز الاحتمالية على مفردات أضيق. تعتمد معظم واجهات الدردشة t≈0.7 كإعداد افتراضي، مما يضع النص في منطقة كشف معتدلة. المستخدمون العدائيون يرفعون درجة الحرارة صراحةً أو يستخدمون ترميزًا متنوعًا لتوسيع النطاق والتهرب من الكشف — يُصحح مُجمَّعنا هذا جزئيًا لكن ليس كليًا.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. تُنتج عائلة Claude باستمرار نصًا أقل تكرارًا وأكثر تنوعًا أسلوبيًا من نماذج GPT من الجيل ذاته، مما يجعلها أصعب كشفًا عبر الأساليب الإحصائية.
تستهدف تدريب Claude الدستوري صراحةً “دلائل الآلة” التي يتعلم منها مصنّفنا الخاضع للإشراف — أنماط التحفظ، والإفراط في استخدام أدوات الربط المعينة، وهيكل الفقرات القابلة للتنبؤ. هذه علاقة عدائية مباشرة: النموذج التوليدي مُدرَّب ضد الخصائص التي يعتمدها الكاشف.
Claude 4.5 Sonnet وGPT-5.x متقاربان في الصعوبة. توزيعات درجاتهما تتداخل مع خط الأساس البشري أكثر في بياناتنا التحقيقية. إذا كان سير عملك يستهدف أيًا من هذين النموذجين، توقع انخفاض الاستدعاء عند العتبة الافتراضية وفكر في الخفض إلى F1 المثلى للفحص عالي الحساسية.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. أظهر Gemini أكثر أداء كشف متغيرًا عبر الإصدارات — بعض الإصدارات الوسيطة تراجعت مؤقتًا قبل وصول التحسينات.
يعني التدريب متعدد الوسائط لـGemini أن المخرجات النصية فقط تحمل أحيانًا أنماطًا متبقية من مجالات وصف الصور أو شرح الكود. يلتقط كاشفنا على هذه، مما يفسر إمكانية كشف Gemini الأعلى قليلًا على المحفزات متعددة المجالات مقارنةً بالنثر البحت.
بالنسبة لمستخدمي Google Workspace الذين يستخدم طلابهم أو موظفوهم Gemini عبر Docs، إشارة الكشف مماثلة لمخرجات API الخام. لم نلاحظ أنماط تهرب خاصة بتكامل مساحة العمل تختلف عن استخدام Gemini API المباشر.
الصق مخرجات أي LLM وشاهد حكم كل جملة. يتعامل كاشفنا مع جميع عائلات النماذج الـ22 كفحص تجميعي واحد.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. تمتد النماذج ذات الأوزان المفتوحة على نطاق أوسع من النماذج المغلقة — متغيرات الضبط الدقيق، والنشرات الكمية، ونقاط التفتيش المُعدَّلة من قبل المجتمع كلها تُنتج مخرجات مختلفة بدقة.
الكشف على الأوزان المفتوحة مهم استراتيجيًا لأن أدوات التأنيس عادةً مبنية على نماذج الأوزان المفتوحة — مشتقات Llama وMistral تعمل محليًا بتكلفة منخفضة، وهذا سبب تسعير خدمات إعادة الصياغة ونقل الأسلوب بهذا الشكل. إذا كان قلقك هو الذكاء الاصطناعي المُؤنسَن، فأنت في نهاية المطاف تدافع ضد توليد عائلة Llama.
يستحق DeepSeek R1 وo3-mini (نموذج استدلال OpenAI) ذكرًا منفصلًا. كلاهما يُنتج نصًا مع آثار سلسلة الاستدلال — منطق خطوة بخطوة مرئي في المخرجات — تعلّم كاشفنا التعرف عليه. نماذج الاستدلال حاليًا أسهل كشفًا من نظيراتها في الدردشة الأساسية لهذا السبب.
إذا كنت تختار نموذجًا للكتابة وليس الكشف من أولوياتك، فإن Claude 4.5 Sonnet وGPT-5 هما الأصعب كشفًا. إذا كنت تبني سير عمل كشف، أعطِ الأولوية للنماذج التي تراها فعلًا: معظم الإساءة الأكاديمية لا تزال تعمل على GPT-4/5 عبر الواجهات المجانية؛ ومعظم زراعة المحتوى تعمل على أدوات التأنيس المشتقة من Llama.
كاشف واحد مُدرَّب على عائلة نماذج واحدة سيكون الأسوأ أداءً على البقية. يُدرَّب نهجنا التجميعي على عينات من جميع النماذج الـ22، وهذا سبب كون AUC لكل نموذج على الحالات الصعبة (Claude 4.5 وGPT-5) لا يزال فوق 0.90 بينما أي كاشف مُدرَّب على نموذج واحد سينخفض إلى ما دون 0.80.
الاتجاه الأساسي: صعوبة الكشف ترتفع أسرع من وتيرة إصدار النماذج. كل راية جديدة أصعب كشفًا من سابقتها، وإعادة التدريب تُغلق الفجوة لكن ليس بالكامل. توقع أن يكون خط الأساس 2026–2027 أقل AUC على النماذج الرائدة وثابتًا تقريبًا على النماذج القديمة.
أرقام AUC لكل نموذج مستمدة من تحققنا الداخلي وقد لا تُعمَّم. تتغير صعوبة كل نموذج مع مرور الوقت مع تطور النموذج التوليدي ومجموعة تدريبنا. تعكس البيانات الحالية تشغيل المعيار 2026-04.