ہم 22 جنریٹو ماڈلز کے خلاف اپنے AI ڈیٹیکٹر کی حقیقی دنیا کی درستگی شائع کرتے ہیں، جن میں GPT-5، Claude 4، Gemini 2، اور Llama 3 شامل ہیں۔ فی ماڈل جدول، ایماندارانہ حدود، اور محققین کے لیے ڈاؤن لوڈ کے قابل ڈیٹا سیٹ۔
زیادہ تر AI ڈیٹیکشن ٹولز آپ سے ایک غیر شفاف اسکور پر بھروسہ کرنے کو کہتے ہیں۔ ہمارے خیال میں آپ ثبوت کے مستحق ہیں۔ اس صفحے پر ہم اپنے اندرونی توثیقی رن کے مکمل نتائج شیئر کرتے ہیں — ہر وہ جنریٹر جسے ہم نے آزمایا، اس پر AUC-ROC اسکور، وہ مضمون کی اقسام جنہوں نے ہمیں سب سے زیادہ مشکل دی، اور وہ فیصلہ کن حدیں جو ہم پروڈکشن میں استعمال کرتے ہیں۔
شفافیت کی یہ سطح AI-ڈیٹیکشن کی دنیا میں غیر معمولی ہے۔ زیادہ تر حریف — plagiarism-checker وینڈرز، خصوصی AI-ڈیٹیکشن سروسز، عام SaaS ٹولز — یا تو کوئی درستگی کا ڈیٹا شائع نہیں کرتے یا ایک منتخب نمبر شائع کرتے ہیں۔ یہ طرز عمل پائیدار نہیں: اساتذہ، ناشرین، اور محققین کو کسی بھی ٹول پر انحصار کرنے سے پہلے قابلِ تکرار بینچ مارکس کی ضرورت ہے۔
ہمارے اعداد و شمار ہمارے ModernBERT ڈیٹیکٹر کو تربیت دینے کے لیے استعمال کیے گئے کیلیبریشن کارپس کے 1,000 نمونوں کے توثیقی سپلٹ سے آتے ہیں۔ وہی طریقہ کار جو اس بینچ مارک کو چلاتا ہے ہر اس دستاویز پر چلتا ہے جو آپ ہمارے ٹول کے ذریعے جمع کراتے ہیں۔ ڈیموز کے لیے کچھ چھپایا نہیں گیا۔
توثیقی سیٹ میں 1,200 نمونوں کے کیلیبریشن کارپس سے 1,000 مضامین شامل ہیں: 600 انسانی تحریر کردہ مضامین (PAN25 مشترکہ کام کے ڈیٹا اور PERSUADE دلیلی مضامین کے ڈیٹا سیٹ سے) اور 600 AI سے تیار کردہ مضامین (کنٹرولڈ پرامپٹنگ کے تحت 22 مختلف بڑے زبانی ماڈلز سے تیار کردہ)۔ 80/20 ٹریننگ-توثیق سپلٹ ثابت اور قابلِ تکرار ہے۔
ہر نمونے کو الگ تھلگ اسکور کیا جاتا ہے، بغیر کسی میٹا ڈیٹا تک رسائی کے جو سچ ظاہر کر سکے۔ ڈیٹیکٹر [0, 100] میں ایک امکان لوٹاتا ہے جو نمونے کے AI سے تیار کردہ ہونے کے امکان کی نمائندگی کرتا ہے۔ پھر ہم فی جنریٹر اور مضمون کی قسم کی سطح پر receiver-operating-characteristic curve (AUC-ROC) کے تحت کا رقبہ حساب کرتے ہیں۔
تمام حدیں، ٹریننگ ہائپر پیرامیٹرز، اور خام امکانی آؤٹ پٹ لاگ کی جاتی ہیں۔ ڈیٹا سیٹ خود اس صفحے کے نچلے حصے پر ڈاؤن لوڈ کے لیے دستیاب ہے — CSV فارمیٹ، فی نمونہ ایک قطار، جنریٹر کی شناخت، مضمون کی قسم کا لیبل، خام اسکور، اور حتمی بائنری فیصلے کے ساتھ۔
مکمل 1,000 نمونوں کے سیٹ میں، ہمارا ensemble ڈیٹیکٹر AUC-ROC [AUC: 0.9884] حاصل کرتا ہے۔ 50% فیصلہ کن حد پر جو ہم پروڈکشن میں استعمال کرتے ہیں: توثیقی سیٹ میں انسانی مضامین پر 0 غلط مثبت، اور AI مضامین پر 60% ریکال۔ 26.56% کی F1-بہترین حد پر، ریکال 90% تک بڑھ جاتی ہے 2% غلط مثبت کی قیمت پر — یہ تبادلہ ہائی-سینسیٹیویٹی اسکریننگ ورک فلوز کے لیے بہتر موزوں ہے۔
ہمارے عوامی ٹول پر دستاویز-سطح کا فیصلہ قدامت پسند 50% حد استعمال کرتا ہے، زیادہ سے زیادہ ریکال کے بجائے صفر غلط مثبت کو ترجیح دیتا ہے۔ اساتذہ، ناشرین، اور محققین ویجیٹ میں حساسیت سلائیڈر کے ذریعے اسے اوورائیڈ کر سکتے ہیں جب وہ زیادہ جارحانہ فلیگنگ چاہتے ہیں۔
موازنے کے طور پر، Binoculars zero-shot کمپوننٹ اکیلا (ایک 2× Llama-3.1-8B سیٹ اپ) AUC [AUC: 0.8509] اکیلے اسکور کرتا ہے۔ fine-tuned ModernBERT کمپوننٹ اکیلا in-distribution مضامین پر [AUC: 1.0000] اور out-of-distribution متن پر [AUC: 0.9069] اسکور کرتا ہے۔ ensemble کسی بھی واحد محور پر ان کے درمیان بیٹھتا ہے لیکن اوسطاً دونوں سے بہتر کارکردگی دیتا ہے کیونکہ یہ ان کی تکمیلی کمزوریوں کو درست کرتا ہے۔
یہاں فی ماڈل AUC-ROC جدول ہے۔ ماڈلز کو ہمارے توثیقی سیٹ پر سب سے آسان سے سب سے مشکل پتہ لگانے کے قابل ترتیب میں ترتیب دیا گیا ہے۔ [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI ماڈلز: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]۔ Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]۔ Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]۔ Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]۔ دیگر: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?]۔
سرخی کا نمونہ: نئے، بڑے، instruction-tuned ماڈلز ایسی تحریر پیدا کرتے ہیں جو کسی بھی شماریاتی ڈیٹیکٹر کو، بشمول ہمارے، زیادہ انسانی لگتی ہے۔ Claude 4.5 Sonnet اور GPT-5.x وہ دو خاندان ہیں جہاں ہمارے اسکور کی تقسیم انسانی بیس لائن کے ساتھ سب سے زیادہ اوورلیپ کرتی ہے۔ یہ 2025 میں شائع ہونے والی ہر آزاد تحقیق سے میل کھاتا ہے — ہتھیاروں کی دوڑ حقیقی ہے اور ماڈل کا سائز پتہ لگانے کے لیے براہ راست رکاوٹ ہے۔
تمام متن یکساں طور پر پتہ لگانے کے قابل نہیں ہے۔ ہم نتائج کو مضمون کی قسم کے مطابق تقسیم کرتے ہیں — ہر PERSUADE پرامپٹ کیٹیگری — اور بہترین اور بدترین کے درمیان خلا وسیع ہے۔ [PER-TYPE TABLE]
دلیلی، اقناعی، اور وضاحتی مضامین: ڈیٹیکٹر کا مضبوط ترین ڈومین۔ AUC عموماً 0.97–1.00 ہے کیونکہ ٹریننگ کارپس ان طرزوں کو زیادہ وزن دیتا ہے۔ یہیں پر زیادہ تر تعلیمی سالمیت کے معاملات آتے ہیں۔
تخلیقی تحریر اور ادبی تجزیہ: ہمارا کمزور ترین ڈومین۔ literary_analysis کے لیے AUC 0.69 تک گر جاتا ہے — فکشن میں انسانی طرز LLM آؤٹ پٹ کے ساتھ ملتا ہے اور نہ ہمارا supervised نہ zero-shot کمپوننٹ قابلِ اعتماد طریقے سے انہیں الگ کر سکتا ہے۔ فکشن پر اعلیٰ AI اسکور کو شک کی نظر سے دیکھیں۔
کوئی بھی دستاویز چسپاں کریں اور وہی فی جملہ فیصلہ اور فیصلہ کن حدیں دیکھیں جو ہم ان بینچ مارک اعداد و شمار کے لیے استعمال کرتے ہیں۔ مفت، سائن اپ کے بغیر۔
تین قسم کے متن ہمارے ڈیٹیکٹر سے ہمارے توثیقی سیٹ کی نسبت زیادہ بار بچ جاتے ہیں۔ انسانیت بخشا گیا AI متن — آؤٹ پٹ جو کسی متضاد paraphrasing یا style-transfer ٹول سے گزرا ہو — اکثر انسانی اسکور کرتا ہے حتیٰ کہ جب بنیادی متن مکمل طور پر تیار کیا گیا ہو۔ مختصر متن (100 الفاظ سے کم) کو بالکل بھی درجہ بندی کرنا مشکل ہے کیونکہ شماریاتی اشارہ ناکافی ہے۔ غیر مادری انگریزی تحریر AI سے تیار کردہ اسکور کر سکتی ہے کیونکہ LLMs اور ESL لکھاری بعض الفاظی اور نحوی ترجیحات مشترک رکھتے ہیں۔
ہمارا ڈیٹیکٹر امکانی ہے، ثبوتی نہیں۔ اعلیٰ AI اسکور مزید تحقیق کا اشارہ ہے، بدانتظامی کا ثبوت نہیں۔ ہم اسکور کو سیاق و سباق کے ساتھ جوڑنے کی سختی سے سفارش کرتے ہیں: حالیہ ترمیمی تاریخ، ورژن مسودے، اسی مصنف کے لکھنے کے نمونے، اور — جہاں اجازت ہو — مصنف کے ساتھ ایک مختصر فالو اپ گفتگو۔
ہم مسلسل جدید ترین جنریٹر آؤٹ پٹ پر دوبارہ تربیت دیتے ہیں، لیکن ہمیشہ ایک وقفہ ہوتا ہے: پچھلے ہفتے جاری ہونے والا ماڈل ٹریننگ ڈیٹا میں اچھی طرح نمائندگی نہیں کر سکتا۔ اگر آپ کا ورک فلو جدید ترین ماڈلز کو پکڑنے پر منحصر ہے، تو اپ ڈیٹ کردہ اعداد و شمار کے لیے ہمارا بینچ مارک صفحہ سہ ماہی چیک کریں۔
ہم خام توثیقی نتائج شائع کرتے ہیں تاکہ محققین، صحافی، اور اساتذہ آزادانہ طور پر ہمارے دعووں کی تصدیق کر سکیں۔ CSV میں شامل ہے: نمونہ ID، جنریٹر کی شناخت (یا 'human')، مضمون کی قسم کا لیبل، خام امکانی آؤٹ پٹ، 50% حد پر بائنری فیصلہ، 26.56% حد پر بائنری فیصلہ۔
ڈاؤن لوڈ: ai-detector-benchmark-2026-04.csv (سہ ماہی اپ ڈیٹ)۔ تعلیمی استعمال غیر محدود ہے؛ تجارتی دوبارہ اشاعت کے لیے انتساب درکار ہے: “سرقت کا سراغ لگانے والا — AI Detection Benchmark 2026-04”۔
اسی طریقہ کار کے ایک انٹرایکٹو ورژن کے لیے اپنے متن پر، ہمارا AI & Plagiarism Checker ٹول آزمائیں — کوئی بھی دستاویز چسپاں کریں اور فی جملہ فیصلہ، وہی فیصلہ کن حدیں، اور وہی اعتماد کا وقفہ دیکھیں جو ہم ان شائع شدہ اعداد و شمار کے لیے استعمال کرتے ہیں۔
بینچ مارک کے نتائج ہمارے اندرونی توثیقی سیٹ سے حاصل کیے گئے ہیں اور شاید out-of-distribution متن پر عام نہ ہوں۔ شائع شدہ اعداد و شمار 1,000 نمونوں میں اوسط کارکردگی کی نمائندگی کرتے ہیں؛ آپ کی دستاویز مختلف اسکور کر سکتی ہے۔ AI ڈیٹیکشن کے نتائج کو بہت سے ان پٹس میں سے ایک کے طور پر استعمال کریں، تصنیف کے واحد ثبوت کے طور پر نہیں۔