گھر › AI کا پتہ لگانا کتنا درست ہے؟ 22 LLMs میں بینچ مارک | سرقت کا سراغ لگانے والا

AI کا پتہ لگانا کتنا درست ہے؟ 22 LLMs میں ہمارا بینچ مارک

ہم 22 جنریٹو ماڈلز کے خلاف اپنے AI ڈیٹیکٹر کی حقیقی دنیا کی درستگی شائع کرتے ہیں، جن میں GPT-5، Claude 4، Gemini 2، اور Llama 3 شامل ہیں۔ فی ماڈل جدول، ایماندارانہ حدود، اور محققین کے لیے ڈاؤن لوڈ کے قابل ڈیٹا سیٹ۔

2026-04-17 · Plagiarism Detector Team

ہم اپنی درستگی کے اعداد و شمار کیوں شائع کرتے ہیں

زیادہ تر AI ڈیٹیکشن ٹولز آپ سے ایک غیر شفاف اسکور پر بھروسہ کرنے کو کہتے ہیں۔ ہمارے خیال میں آپ ثبوت کے مستحق ہیں۔ اس صفحے پر ہم اپنے اندرونی توثیقی رن کے مکمل نتائج شیئر کرتے ہیں — ہر وہ جنریٹر جسے ہم نے آزمایا، اس پر AUC-ROC اسکور، وہ مضمون کی اقسام جنہوں نے ہمیں سب سے زیادہ مشکل دی، اور وہ فیصلہ کن حدیں جو ہم پروڈکشن میں استعمال کرتے ہیں۔

شفافیت کی یہ سطح AI-ڈیٹیکشن کی دنیا میں غیر معمولی ہے۔ زیادہ تر حریف — plagiarism-checker وینڈرز، خصوصی AI-ڈیٹیکشن سروسز، عام SaaS ٹولز — یا تو کوئی درستگی کا ڈیٹا شائع نہیں کرتے یا ایک منتخب نمبر شائع کرتے ہیں۔ یہ طرز عمل پائیدار نہیں: اساتذہ، ناشرین، اور محققین کو کسی بھی ٹول پر انحصار کرنے سے پہلے قابلِ تکرار بینچ مارکس کی ضرورت ہے۔

ہمارے اعداد و شمار ہمارے ModernBERT ڈیٹیکٹر کو تربیت دینے کے لیے استعمال کیے گئے کیلیبریشن کارپس کے 1,000 نمونوں کے توثیقی سپلٹ سے آتے ہیں۔ وہی طریقہ کار جو اس بینچ مارک کو چلاتا ہے ہر اس دستاویز پر چلتا ہے جو آپ ہمارے ٹول کے ذریعے جمع کراتے ہیں۔ ڈیموز کے لیے کچھ چھپایا نہیں گیا۔

ٹیسٹ کارپس اور طریقہ کار

توثیقی سیٹ میں 1,200 نمونوں کے کیلیبریشن کارپس سے 1,000 مضامین شامل ہیں: 600 انسانی تحریر کردہ مضامین (PAN25 مشترکہ کام کے ڈیٹا اور PERSUADE دلیلی مضامین کے ڈیٹا سیٹ سے) اور 600 AI سے تیار کردہ مضامین (کنٹرولڈ پرامپٹنگ کے تحت 22 مختلف بڑے زبانی ماڈلز سے تیار کردہ)۔ 80/20 ٹریننگ-توثیق سپلٹ ثابت اور قابلِ تکرار ہے۔

ہر نمونے کو الگ تھلگ اسکور کیا جاتا ہے، بغیر کسی میٹا ڈیٹا تک رسائی کے جو سچ ظاہر کر سکے۔ ڈیٹیکٹر [0, 100] میں ایک امکان لوٹاتا ہے جو نمونے کے AI سے تیار کردہ ہونے کے امکان کی نمائندگی کرتا ہے۔ پھر ہم فی جنریٹر اور مضمون کی قسم کی سطح پر receiver-operating-characteristic curve (AUC-ROC) کے تحت کا رقبہ حساب کرتے ہیں۔

تمام حدیں، ٹریننگ ہائپر پیرامیٹرز، اور خام امکانی آؤٹ پٹ لاگ کی جاتی ہیں۔ ڈیٹا سیٹ خود اس صفحے کے نچلے حصے پر ڈاؤن لوڈ کے لیے دستیاب ہے — CSV فارمیٹ، فی نمونہ ایک قطار، جنریٹر کی شناخت، مضمون کی قسم کا لیبل، خام اسکور، اور حتمی بائنری فیصلے کے ساتھ۔

سرخی کے نتائج

مکمل 1,000 نمونوں کے سیٹ میں، ہمارا ensemble ڈیٹیکٹر AUC-ROC [AUC: 0.9884] حاصل کرتا ہے۔ 50% فیصلہ کن حد پر جو ہم پروڈکشن میں استعمال کرتے ہیں: توثیقی سیٹ میں انسانی مضامین پر 0 غلط مثبت، اور AI مضامین پر 60% ریکال۔ 26.56% کی F1-بہترین حد پر، ریکال 90% تک بڑھ جاتی ہے 2% غلط مثبت کی قیمت پر — یہ تبادلہ ہائی-سینسیٹیویٹی اسکریننگ ورک فلوز کے لیے بہتر موزوں ہے۔

ہمارے عوامی ٹول پر دستاویز-سطح کا فیصلہ قدامت پسند 50% حد استعمال کرتا ہے، زیادہ سے زیادہ ریکال کے بجائے صفر غلط مثبت کو ترجیح دیتا ہے۔ اساتذہ، ناشرین، اور محققین ویجیٹ میں حساسیت سلائیڈر کے ذریعے اسے اوورائیڈ کر سکتے ہیں جب وہ زیادہ جارحانہ فلیگنگ چاہتے ہیں۔

موازنے کے طور پر، Binoculars zero-shot کمپوننٹ اکیلا (ایک 2× Llama-3.1-8B سیٹ اپ) AUC [AUC: 0.8509] اکیلے اسکور کرتا ہے۔ fine-tuned ModernBERT کمپوننٹ اکیلا in-distribution مضامین پر [AUC: 1.0000] اور out-of-distribution متن پر [AUC: 0.9069] اسکور کرتا ہے۔ ensemble کسی بھی واحد محور پر ان کے درمیان بیٹھتا ہے لیکن اوسطاً دونوں سے بہتر کارکردگی دیتا ہے کیونکہ یہ ان کی تکمیلی کمزوریوں کو درست کرتا ہے۔

فی جنریٹر تفصیل

یہاں فی ماڈل AUC-ROC جدول ہے۔ ماڈلز کو ہمارے توثیقی سیٹ پر سب سے آسان سے سب سے مشکل پتہ لگانے کے قابل ترتیب میں ترتیب دیا گیا ہے۔ [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI ماڈلز: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]۔ Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]۔ Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]۔ Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]۔ دیگر: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?]۔

سرخی کا نمونہ: نئے، بڑے، instruction-tuned ماڈلز ایسی تحریر پیدا کرتے ہیں جو کسی بھی شماریاتی ڈیٹیکٹر کو، بشمول ہمارے، زیادہ انسانی لگتی ہے۔ Claude 4.5 Sonnet اور GPT-5.x وہ دو خاندان ہیں جہاں ہمارے اسکور کی تقسیم انسانی بیس لائن کے ساتھ سب سے زیادہ اوورلیپ کرتی ہے۔ یہ 2025 میں شائع ہونے والی ہر آزاد تحقیق سے میل کھاتا ہے — ہتھیاروں کی دوڑ حقیقی ہے اور ماڈل کا سائز پتہ لگانے کے لیے براہ راست رکاوٹ ہے۔

ڈیٹیکٹر کو کہاں دشواری ہوتی ہے

تمام متن یکساں طور پر پتہ لگانے کے قابل نہیں ہے۔ ہم نتائج کو مضمون کی قسم کے مطابق تقسیم کرتے ہیں — ہر PERSUADE پرامپٹ کیٹیگری — اور بہترین اور بدترین کے درمیان خلا وسیع ہے۔ [PER-TYPE TABLE]

دلیلی، اقناعی، اور وضاحتی مضامین: ڈیٹیکٹر کا مضبوط ترین ڈومین۔ AUC عموماً 0.97–1.00 ہے کیونکہ ٹریننگ کارپس ان طرزوں کو زیادہ وزن دیتا ہے۔ یہیں پر زیادہ تر تعلیمی سالمیت کے معاملات آتے ہیں۔

تخلیقی تحریر اور ادبی تجزیہ: ہمارا کمزور ترین ڈومین۔ literary_analysis کے لیے AUC 0.69 تک گر جاتا ہے — فکشن میں انسانی طرز LLM آؤٹ پٹ کے ساتھ ملتا ہے اور نہ ہمارا supervised نہ zero-shot کمپوننٹ قابلِ اعتماد طریقے سے انہیں الگ کر سکتا ہے۔ فکشن پر اعلیٰ AI اسکور کو شک کی نظر سے دیکھیں۔

ڈیٹیکٹر کو اپنے متن پر آزمائیں

کوئی بھی دستاویز چسپاں کریں اور وہی فی جملہ فیصلہ اور فیصلہ کن حدیں دیکھیں جو ہم ان بینچ مارک اعداد و شمار کے لیے استعمال کرتے ہیں۔ مفت، سائن اپ کے بغیر۔

حدود اور ناکامی کے طریقے

تین قسم کے متن ہمارے ڈیٹیکٹر سے ہمارے توثیقی سیٹ کی نسبت زیادہ بار بچ جاتے ہیں۔ انسانیت بخشا گیا AI متن — آؤٹ پٹ جو کسی متضاد paraphrasing یا style-transfer ٹول سے گزرا ہو — اکثر انسانی اسکور کرتا ہے حتیٰ کہ جب بنیادی متن مکمل طور پر تیار کیا گیا ہو۔ مختصر متن (100 الفاظ سے کم) کو بالکل بھی درجہ بندی کرنا مشکل ہے کیونکہ شماریاتی اشارہ ناکافی ہے۔ غیر مادری انگریزی تحریر AI سے تیار کردہ اسکور کر سکتی ہے کیونکہ LLMs اور ESL لکھاری بعض الفاظی اور نحوی ترجیحات مشترک رکھتے ہیں۔

ہمارا ڈیٹیکٹر امکانی ہے، ثبوتی نہیں۔ اعلیٰ AI اسکور مزید تحقیق کا اشارہ ہے، بدانتظامی کا ثبوت نہیں۔ ہم اسکور کو سیاق و سباق کے ساتھ جوڑنے کی سختی سے سفارش کرتے ہیں: حالیہ ترمیمی تاریخ، ورژن مسودے، اسی مصنف کے لکھنے کے نمونے، اور — جہاں اجازت ہو — مصنف کے ساتھ ایک مختصر فالو اپ گفتگو۔

ہم مسلسل جدید ترین جنریٹر آؤٹ پٹ پر دوبارہ تربیت دیتے ہیں، لیکن ہمیشہ ایک وقفہ ہوتا ہے: پچھلے ہفتے جاری ہونے والا ماڈل ٹریننگ ڈیٹا میں اچھی طرح نمائندگی نہیں کر سکتا۔ اگر آپ کا ورک فلو جدید ترین ماڈلز کو پکڑنے پر منحصر ہے، تو اپ ڈیٹ کردہ اعداد و شمار کے لیے ہمارا بینچ مارک صفحہ سہ ماہی چیک کریں۔

مکمل ڈیٹا سیٹ ڈاؤن لوڈ کریں

ہم خام توثیقی نتائج شائع کرتے ہیں تاکہ محققین، صحافی، اور اساتذہ آزادانہ طور پر ہمارے دعووں کی تصدیق کر سکیں۔ CSV میں شامل ہے: نمونہ ID، جنریٹر کی شناخت (یا 'human')، مضمون کی قسم کا لیبل، خام امکانی آؤٹ پٹ، 50% حد پر بائنری فیصلہ، 26.56% حد پر بائنری فیصلہ۔

ڈاؤن لوڈ: ai-detector-benchmark-2026-04.csv (سہ ماہی اپ ڈیٹ)۔ تعلیمی استعمال غیر محدود ہے؛ تجارتی دوبارہ اشاعت کے لیے انتساب درکار ہے: “سرقت کا سراغ لگانے والا — AI Detection Benchmark 2026-04”۔

اسی طریقہ کار کے ایک انٹرایکٹو ورژن کے لیے اپنے متن پر، ہمارا AI & Plagiarism Checker ٹول آزمائیں — کوئی بھی دستاویز چسپاں کریں اور فی جملہ فیصلہ، وہی فیصلہ کن حدیں، اور وہی اعتماد کا وقفہ دیکھیں جو ہم ان شائع شدہ اعداد و شمار کے لیے استعمال کرتے ہیں۔

اکثر پوچھے جانے والے سوالات

یہ بینچ مارک کتنی بار اپ ڈیٹ ہوتا ہے؟

ہر سہ ماہی۔ جب کوئی بڑا جنریٹر (GPT-6، Claude 5، Gemini 3) لانچ ہوتا ہے تو ہم اسے 4 ہفتوں کے اندر ٹیسٹ کارپس میں شامل کرتے ہیں اور اپ ڈیٹ شدہ جدول دوبارہ شائع کرتے ہیں۔ تاریخی ورژنز تاریخ والے فائل ناموں کے ساتھ محفوظ ہیں — 2026-04 ایڈیشن موجودہ مستحکم ریلیز ہے۔

آپ فی نمونہ امکانی آؤٹ پٹ کیوں نہیں شائع کرتے؟

ہم کرتے ہیں — ڈاؤن لوڈ کے قابل CSV میں خام امکانات شامل ہیں۔ جو ہم شائع نہیں کرتے وہ اصل مضمون کا متن ہے، کیونکہ PAN25 کارپس اور PERSUADE ڈیٹا سیٹ دوبارہ تقسیم کی پابندیاں رکھتے ہیں۔ اگر آپ متن چاہتے ہیں، تو ان ڈیٹا سیٹس کو ان کے ماخذ سے براہ راست حاصل کریں (CSV دستاویز میں لنکس)۔

کیا میں کسی ڈیٹیکٹر پر بھروسہ کر سکتا ہوں اگر AUC 1.0 سے کم ہو؟

کوئی ڈیٹیکٹر ہر جنریٹر پر AUC 1.0 حاصل نہیں کرتا، اس لیے سوال یہ نہیں کہ ‘کیا یہ کامل ہے’ بلکہ ‘کیا یہ شفاف ہے۔’ ایک ڈیٹیکٹر جو AUC 0.95 شائع کرتا ہے اور آپ کو بتاتا ہے کہ یہ کہاں مشکل محسوس کرتا ہے، اس سے زیادہ قابلِ اعتماد ہے جو ‘صنعت میں سرکردہ درستگی’ کوئی نمبر دیے بغیر شائع کرتا ہے۔ ہمارا AUC [AUC: 0.9884] ایماندارانہ اوسط کارکردگی ہے؛ فی جنریٹر اور فی مضمون قسم کی تفصیل وہ جگہ ہے جہاں آپ کو اپنا خریداری کا فیصلہ کرنا چاہیے۔

کیا آپ کا AI ڈیٹیکٹر تعلیمی اشاعت کے لیے تیار ہے؟

بنیادی طریقہ کار ہے — Binoculars (ICML 2024) اور ModernBERT دونوں peer-reviewed آرکیٹیکچرز ہیں۔ ہمارا مخصوص fine-tuning کارپس اور حدیں ملکیتی ہیں لیکن بینچ مارک کا طریقہ کار مکمل طور پر قابلِ تکرار ہے۔

مفت آن لائن ٹول ڈیسک ٹاپ پروڈکٹ سے کیسے موازنہ کرتا ہے؟

ایک ہی انجن، ایک ہی درستگی کے اعداد و شمار، ایک ہی فی جملہ فیصلہ منطق۔ ڈیسک ٹاپ پروڈکٹ غیر محدود دستاویز کی لمبائی، آف لائن اسکیننگ، 4 ارب ویب صفحات کے خلاف مربوط سرقت مطابقت، اور پوری فولڈرز کی بیچ پروسیسنگ شامل کرتا ہے۔ یک بار جانچ کے لیے آن لائن ٹول کافی ہے؛ روزانہ کے ورک فلوز کے لیے ڈیسک ٹاپ صحیح ٹول ہے۔

بینچ مارک کے نتائج ہمارے اندرونی توثیقی سیٹ سے حاصل کیے گئے ہیں اور شاید out-of-distribution متن پر عام نہ ہوں۔ شائع شدہ اعداد و شمار 1,000 نمونوں میں اوسط کارکردگی کی نمائندگی کرتے ہیں؛ آپ کی دستاویز مختلف اسکور کر سکتی ہے۔ AI ڈیٹیکشن کے نتائج کو بہت سے ان پٹس میں سے ایک کے طور پر استعمال کریں، تصنیف کے واحد ثبوت کے طور پر نہیں۔