تمام AI متن یکساں طور پر قابل تشخیص نہیں ہوتا۔ ہمارے فی-جنریٹر بینچ مارک کے نتائج یہاں ہیں — کون سے ماڈل خاندانوں کو ہمارا ڈیٹیکٹر تقریباً کامل درستگی سے پکڑتا ہے، کن سے جدوجہد کرتا ہے، اور یہ ڈیٹیکشن ورک فلو چننے کے بارے میں کیا بتاتا ہے۔
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
ہمارے تصدیقی سیٹ پر آسان سے مشکل تشخیص کی ترتیب۔ پھیلاؤ وسیع ہے — کچھ ماڈل خاندانوں پر AUC 0.99 سے تجاوز کرتا ہے جبکہ کچھ 0.80 کی دہائی میں گر جاتے ہیں۔ تشخیص کی مشکل ماڈل کے سائز، انسٹرکشن-ٹیوننگ کی نفاست، اور آؤٹ پٹ کے تنوع سے مطابقت رکھتی ہے۔
مکمل فی-جنریٹر تجزیاتی طریقہ کار کے لیے، ہمارا درستگی بینچ مارک صفحہ دیکھیں۔ یہ مضمون اس ڈیٹا کے عملی مضمرات کا خلاصہ پیش کرتا ہے جو صارفین کے لیے مفید ہے جو یہ انتخاب کر رہے ہیں کہ کس ڈیٹیکٹر پر اعتماد کریں اور کون سا ماڈل استعمال کریں۔
GPT-3.5 سب سے آسان جدید ماڈل ہے جسے پہچانا جا سکے — ہمارے سیٹ پر AUC [AUC: ?]۔ میراثی نسل کے نشانات (تکرار، ہچکچاہٹ، بے رنگ رجسٹر) اب بھی واضح طور پر موجود ہیں۔ GPT-4 AUC [AUC: ?] تک گرتا ہے، GPT-4o [AUC: ?] تک، جو بتدریج بہتر کیلیبریشن کی عکاسی کرتا ہے۔ GPT-5.x خاندان میں سب سے مشکل ہے — AUC [AUC: ?] — کیونکہ انسٹرکشن-ٹیوننگ ٹیم نے واضح طور پر ڈیٹیکشن نشانات کو ہٹانے کو نشانہ بنایا۔
عملی مضمرات: جو علمی ورک فلو GPT-3.5 دور کی دھوکہ بازی سے فکرمند ہیں وہ بڑے پیمانے پر اکیلے ڈیٹیکشن پر انحصار کر سکتے ہیں۔ GPT-5 سے فکرمند ورک فلو کو ڈیٹیکشن کو سیاق و سباق کے ثبوت کے ساتھ جوڑنے کی ضرورت ہے، جیسا کہ ہمارے اساتذہ کے ورک فلو گائیڈ میں بیان کیا گیا ہے۔
درجہ حرارت کی ترتیبات اہمیت رکھتی ہیں۔ کم درجہ حرارت کے آؤٹ پٹ (t≤0.5) آسان تر ہوتے ہیں کیونکہ وہ احتمال کو تنگ الفاظ کی فہرست پر مرکوز کرتے ہیں۔ زیادہ تر چیٹ انٹرفیس پہلے سے مقرر t≈0.7 پر چلتے ہیں، متن کو اعتدال سے قابل شناخت زون میں رکھتے ہوئے۔ دشمنانہ صارف واضح طور پر درجہ حرارت بڑھاتے یا متنوع ڈی کوڈنگ استعمال کرتے ہیں تاکہ حد کو وسیع کریں اور ڈیٹیکشن سے بچیں — ہمارا جوڑ جزوی طور پر اس کے لیے تصحیح کرتا ہے لیکن مکمل نہیں۔
Claude 3 Opus: AUC [AUC: ?]۔ Claude 3.5 Sonnet: [AUC: ?]۔ Claude 4 Opus: [AUC: ?]۔ Claude 4.5 Sonnet: [AUC: ?]۔ Claude خاندان مستقل طور پر ایک جیسی نسل کے GPT ماڈلز سے کم تکراری، زیادہ اسلوبی متنوع متن پیدا کرتا ہے، جو اسے شماریاتی طریقوں سے پہچاننا مشکل بناتا ہے۔
Claude کی آئینی-AI تربیت خاص طور پر ان “مشینی علامتوں” کو نشانہ بناتی ہے جو ہمارا نگرانی شدہ کلاسیفائر سیکھتا ہے — ہچکچاہٹ کے نمونے، مخصوص ربط کلمات کا ضرورت سے زیادہ استعمال، قابل پیش گوئی پیراگراف ڈھانچہ۔ یہ براہ راست دشمنانہ تعلق ہے: جنریٹر کو انہی خصوصیات کے خلاف تربیت دی جاتی ہے جن پر ڈیٹیکٹر انحصار کرتا ہے۔
Claude 4.5 Sonnet اور GPT-5.x مشکل میں قریب ہیں۔ ان کی اسکور تقسیمیں ہمارے تصدیقی ڈیٹا میں انسانی بنیاد کے ساتھ سب سے زیادہ اوورلیپ کرتی ہیں۔ اگر آپ کا ورک فلو ان میں سے کسی کو نشانہ بناتا ہے، تو پہلے سے مقرر حد پر کم ریکال کی توقع رکھیں اور زیادہ حساسیت کی جانچ کے لیے F1-مثالی تک کم کرنے پر غور کریں۔
Gemini 1.5 Pro: AUC [AUC: ?]۔ Gemini 2.0: [AUC: ?]۔ Gemini 2.5: [AUC: ?]۔ Gemini نے ورژنوں میں سب سے زیادہ متغیر ڈیٹیکشن کارکردگی دکھائی ہے — کچھ درمیانی ریلیزیں عارضی طور پر پیچھے چلی گئیں اس سے پہلے کہ بہتری آئی۔
Gemini کی ملٹی-موڈل تربیت کا مطلب ہے کہ صرف متن کے آؤٹ پٹ بعض اوقات امیج-کیپشن یا کوڈ-وضاحت ڈومینز کے بقیہ نمونے رکھتے ہیں۔ ہمارا ڈیٹیکٹر انہیں اٹھا لیتا ہے، جو خالص نثر کے مقابلے ملے جلے ڈومین کے اشارات پر Gemini کی قدرے زیادہ قابل شناخت ہونے کی وضاحت کرتا ہے۔
Google Workspace صارفین جن کے طالب علم یا ملازمین Docs کے ذریعے Gemini استعمال کرتے ہیں، ڈیٹیکشن اشارہ خام API آؤٹ پٹ سے ملتا جلتا ہے۔ ہم نے ورک اسپیس-انٹیگریشن مخصوص اجتناب کے نمونے نہیں دیکھے جو براہ راست Gemini API استعمال سے مختلف ہوں۔
کسی بھی LLM کا آؤٹ پٹ پیسٹ کریں اور فی جملہ فیصلہ دیکھیں۔ ہمارا ڈیٹیکٹر تمام 22 ماڈل خاندانوں کو ایک جوڑ جانچ کے طور پر لیتا ہے۔
Llama 3.1: AUC [AUC: ?]۔ Llama 3.3: [AUC: ?]۔ Qwen 2.5: [AUC: ?]۔ Qwen 3: [AUC: ?]۔ DeepSeek R1: [AUC: ?]۔ Mistral Large: [AUC: ?]۔ اوپن-ویٹس ماڈلز بند ماڈلز سے زیادہ وسیع حد میں پھیلے ہیں — فائن-ٹیوننگ کی مختلف اقسام، کوانٹائزڈ ڈیپلوئمنٹس، اور کمیونٹی-ترمیم شدہ چیک پوائنٹس سبھی قدرے مختلف آؤٹ پٹ پیدا کرتے ہیں۔
اوپن-ویٹس پر ڈیٹیکشن حکمت عملی کے لحاظ سے اہم ہے کیونکہ ہیومنائزر ٹولز عموماً اوپن-ویٹس ماڈلز پر بنائے جاتے ہیں — Llama اور Mistral کے مشتقات مقامی طور پر کم قیمت پر چلتے ہیں، یہی وجہ ہے کہ پیرافریزنگ اور اسٹائل-ٹرانسفر سروسز انہیں سستے داموں پیش کرتی ہیں۔ اگر آپ کی فکر ہیومنائزڈ AI سے ہے، تو آپ بنیادی طور پر Llama-خاندان کی نسل کے خلاف دفاع کر رہے ہیں۔
DeepSeek R1 اور o3-mini (OpenAI ریزننگ ماڈل) الگ ذکر کے مستحق ہیں۔ دونوں ریزننگ-چین نشانات کے ساتھ متن پیدا کرتے ہیں — آؤٹ پٹ میں نظر آنے والی واضح مرحلہ بہ مرحلہ منطق — جسے ہمارا ڈیٹیکٹر پہچاننا سیکھ چکا ہے۔ ریزننگ ماڈلز فی الحال اس وجہ سے ان کے بیس-چیٹ ہم منصبوں سے آسان تر ہیں۔
اگر آپ لکھنے کے لیے ماڈل منتخب کر رہے ہیں اور ڈیٹیکشن آپ کی فکر نہیں، تو Claude 4.5 Sonnet اور GPT-5 سب سے مشکل تشخیص ہیں۔ اگر آپ ڈیٹیکشن ورک فلو بنا رہے ہیں، تو ان ماڈلز کے لیے ترجیح دیں جو آپ اصل میں دیکھتے ہیں: زیادہ تر علمی غلط استعمال اب بھی مفت انٹرفیسز کے ذریعے GPT-4/5 پر چلتا ہے؛ زیادہ تر مواد-فارمنگ Llama-مشتق ہیومنائزرز پر چلتی ہے۔
ایک واحد ماڈل خاندان پر تربیت یافتہ ایک ڈیٹیکٹر دوسرے پر سب سے خراب کارکردگی دکھائے گا۔ ہمارا جوڑ نقطۂ نظر تمام 22 جنریٹرز کے نمونوں پر تربیت لیتا ہے، یہی وجہ ہے کہ مشکل معاملات (Claude 4.5، GPT-5) پر فی-ماڈل AUC اب بھی 0.90 سے اوپر ہے جبکہ کوئی بھی واحد-ماڈل-تربیت یافتہ ڈیٹیکٹر 0.80 سے نیچے گر جاتا۔
بنیادی رجحان: تشخیص کی مشکل جنریٹر کی ریلیز رفتار سے تیز بڑھ رہی ہے۔ ہر نیا فلیگ شپ پچھلے سے مشکل تر ہے، دوبارہ تربیت فرق کم کرتی ہے لیکن مکمل نہیں۔ 2026–2027 کی بنیادی لائن سرحدی ماڈلز پر کم AUC اور میراثی ماڈلز پر تقریباً مستقل رہنے کی توقع رکھیں۔
فی-ماڈل AUC نمبر ہمارے اندرونی تصدیق سے حاصل کیے گئے ہیں اور ضروری نہیں کہ عام ہوں۔ ہر ماڈل کی مشکل وقت کے ساتھ بدلتی ہے جیسے جیسے جنریٹر اور ہمارا تربیتی کارپس دونوں تیار ہوتے ہیں۔ موجودہ ڈیٹا 2026-04 بینچ مارک رن کی عکاسی کرتا ہے۔