به بالا بروید
صفحه اصلی دقت تشخیص متن هوش مصنوعی چقدر است؟ معیارسنجی روی ۲۲ مدل زبانی | آشکارساز سرقت ادبی

دقت تشخیص متن هوش مصنوعی چقدر است؟ معیارسنجی ما روی ۲۲ مدل زبانی

ما دقت واقعی آشکارساز هوش مصنوعی‌مان را در برابر ۲۲ مدل مولد، از جمله GPT-5، Claude 4، Gemini 2 و Llama 3، منتشر می‌کنیم. جدول‌های به‌ازای هر مدل، محدودیت‌های صادقانه و مجموعه داده قابل دانلود برای پژوهشگران.

2026-04-17 · Plagiarism Detector Team

چرا اعداد دقت خود را منتشر می‌کنیم

بیشتر ابزارهای تشخیص هوش مصنوعی از شما می‌خواهند به یک امتیاز مبهم اعتماد کنید. ما بر این باوریم که شما شایسته شواهد هستید. در این صفحه نتایج کامل اجرای اعتبارسنجی داخلی‌مان را به اشتراک می‌گذاریم — هر مدلی که آزمایش کردیم، امتیاز AUC-ROC روی آن، انواع مقاله‌هایی که بیشترین دشواری را برایمان ایجاد کردند، و آستانه‌های تصمیم‌گیری که در محیط تولید استفاده می‌کنیم.

این سطح از شفافیت در حوزه تشخیص هوش مصنوعی غیرمعمول است. اکثر رقبا — فروشندگان ابزارهای بررسی سرقت ادبی، سرویس‌های تخصصی تشخیص هوش مصنوعی، ابزارهای عمومی SaaS — یا هیچ داده دقتی منتشر نمی‌کنند یا یک عدد گزینش‌شده دلخواه ارائه می‌دهند. این الگو پایدار نیست: مربیان، ناشران و پژوهشگران پیش از اینکه بتوانند به هر ابزاری تکیه کنند، به معیارسنجی‌های قابل تکرار نیاز دارند.

اعداد ما از یک تقسیم اعتبارسنجی ۱٬۰۰۰ نمونه‌ای از مجموعه کالیبراسیون مورد استفاده برای آموزش آشکارساز ModernBERT ما به دست می‌آیند. همان روش‌شناسی که این معیارسنجی را هدایت می‌کند روی هر سندی که از طریق ابزار ما ارسال می‌کنید اجرا می‌شود. هیچ چیزی برای نمایش نگه داشته نشده است.

مجموعه آزمایشی و روش‌شناسی

مجموعه اعتبارسنجی شامل ۱٬۰۰۰ مقاله از یک مجموعه کالیبراسیون ۱٬۲۰۰ نمونه‌ای است: ۶۰۰ مقاله نوشته‌شده توسط انسان (از داده‌های وظیفه مشترک PAN25 و مجموعه مقالات استدلالی PERSUADE) و ۶۰۰ مقاله تولیدشده توسط هوش مصنوعی (تولیدشده توسط ۲۲ مدل زبانی بزرگ مجزا تحت شرایط کنترل‌شده). تقسیم ۸۰/۲۰ آموزش-اعتبارسنجی ثابت و قابل تکرار است.

هر نمونه به‌صورت مستقل امتیازبندی می‌شود، بدون دسترسی به فراداده‌ای که ممکن است حقیقت زمینه‌ای را فاش کند. آشکارساز یک احتمال در بازه [0، 100] برمی‌گرداند که نشان‌دهنده احتمال تولیدشده بودن نمونه توسط هوش مصنوعی است. سپس ناحیه زیر منحنی مشخصه عملکرد دریافت‌کننده (AUC-ROC) را به‌ازای هر مدل و در سطح نوع مقاله محاسبه می‌کنیم.

تمام آستانه‌ها، فراپارامترهای آموزش و خروجی‌های احتمال خام ثبت می‌شوند. خود مجموعه داده برای دانلود در انتهای این صفحه موجود است — قالب CSV، یک ردیف برای هر نمونه، با هویت مدل مولد، برچسب نوع مقاله، امتیاز خام و حکم دودویی نهایی.

نتایج اصلی

در کل مجموعه ۱٬۰۰۰ نمونه‌ای، آشکارساز ترکیبی ما به AUC-ROC [AUC: 0.9884] دست می‌یابد. در آستانه تصمیم ۵۰٪ که در محیط تولید استفاده می‌کنیم: ۰ مثبت کاذب روی مقالات انسانی در مجموعه اعتبارسنجی، و ۶۰٪ بازخوانی روی مقالات هوش مصنوعی. در آستانه بهینه F1 معادل ۲۶.۵۶٪، بازخوانی به ۹۰٪ می‌رسد با هزینه ۲٪ مثبت کاذب — معامله‌ای که برای جریان‌های کاری با حساسیت بالا مناسب‌تر است.

حکم سطح سند در ابزار عمومی ما از آستانه محافظه‌کارانه ۵۰٪ استفاده می‌کند و اولویت را به صفر مثبت کاذب بر حداکثر بازخوانی می‌دهد. مربیان، ناشران و پژوهشگران می‌توانند این مقدار را از طریق لغزنده حساسیت در ابزار زمانی که می‌خواهند علامت‌گذاری تهاجمی‌تری داشته باشند، نادیده بگیرند.

برای مقایسه، مؤلفه zero-shot بینوکولارز به‌تنهایی (یک تنظیم ۲× Llama-3.1-8B) به‌صورت مستقل AUC [AUC: 0.8509] کسب می‌کند. مؤلفه ModernBERT تنظیم‌شده به‌تنهایی [AUC: 1.0000] روی مقالات داخل توزیع و [AUC: 0.9069] روی متن خارج از توزیع کسب می‌کند. ترکیب در هر محور منفرد بین آن‌ها قرار می‌گیرد اما به‌طور میانگین از هر دو پیشی می‌گیرد زیرا ضعف‌های مکمل آن‌ها را تصحیح می‌کند.

تفکیک به‌ازای هر مدل

این جدول AUC-ROC به‌ازای هر مدل است. مدل‌ها از آسان‌ترین تا سخت‌ترین برای تشخیص در مجموعه اعتبارسنجی ما مرتب شده‌اند. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

مدل‌های OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. سایرین: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

الگوی اصلی: مدل‌های جدیدتر، بزرگ‌تر و دارای تنظیم دستورالعمل تمایل دارند متنی تولید کنند که برای هر آشکارساز آماری، از جمله ما، بیشتر شبیه انسان به نظر برسد. Claude 4.5 Sonnet و GPT-5.x دو خانواده‌ای هستند که توزیع‌های امتیاز ما بیشترین همپوشانی با خط پایه انسانی دارند. این با هر مطالعه مستقل منتشرشده در سال ۲۰۲۵ مطابقت دارد — مسابقه تسلیحاتی واقعی است و اندازه مدل یک عامل منفی مستقیم برای تشخیص است.

کجا آشکارساز با مشکل مواجه می‌شود

همه متن‌ها به یک اندازه قابل تشخیص نیستند. نتایج را به‌ازای نوع مقاله — هر دسته از سوالات PERSUADE — تفکیک می‌کنیم و شکاف بین بهترین و بدترین گسترده است. [PER-TYPE TABLE]

مقالات استدلالی، اقناعی و توضیحی: قوی‌ترین حوزه آشکارساز. AUC معمولاً ۰.۹۷–۱.۰۰ است زیرا مجموعه‌های آموزشی این سبک‌ها را بیش از حد نمایندگی می‌کنند. این حوزه جایی است که بیشتر موارد استفاده در یکپارچگی دانشگاهی قرار می‌گیرند.

نوشته‌های خلاقانه و تحلیل ادبی: ضعیف‌ترین حوزه ما. برای تحلیل ادبی AUC به ۰.۶۹ کاهش می‌یابد — سبک انسانی در داستان با خروجی‌های LLM همگرا می‌شود و نه مؤلفه نظارت‌شده و نه مؤلفه zero-shot ما نمی‌توانند به‌طور قابل اطمینان آن‌ها را تمیز دهند. امتیاز بالای هوش مصنوعی در داستان را با تردید بنگرید.

آشکارساز را روی متن خودتان امتحان کنید

هر سندی را جایگذاری کنید و همان حکم به‌ازای هر جمله و آستانه‌های تصمیمی که برای این اعداد معیارسنجی استفاده می‌کنیم را ببینید. رایگان، بدون ثبت‌نام.

محدودیت‌ها و حالت‌های شکست

سه دسته متن بیشتر از آنچه مجموعه اعتبارسنجی ما نشان می‌دهد از آشکارساز ما فرار می‌کنند. متن هوش مصنوعی انسانی‌سازی‌شده — خروجی‌ای که از یک ابزار پارافریز خصمانه یا انتقال سبک عبور کرده — اغلب حتی وقتی متن زیرین کاملاً تولیدشده بوده به عنوان انسانی امتیاز می‌گیرد. متن کوتاه (زیر ۱۰۰ کلمه) اصلاً به‌سختی قابل طبقه‌بندی است زیرا سیگنال آماری کافی وجود ندارد. نوشتار غیرانگلیسی‌زبان می‌تواند به عنوان تولیدشده توسط هوش مصنوعی امتیاز بگیرد زیرا LLM‌ها و نویسندگان زبان دوم ترجیحات واژگانی و نحوی مشترکی دارند.

آشکارساز ما احتمالاتی است، نه شواهدی. امتیاز بالای هوش مصنوعی یک سیگنال برای بررسی بیشتر است، نه دلیلی بر تخلف. ما به‌شدت توصیه می‌کنیم امتیاز را با زمینه ترکیب کنید: تاریخچه ویرایش اخیر، پیش‌نویس‌ها، نمونه‌های نوشتاری از همان نویسنده، و — در صورت مجاز بودن — یک مکالمه کوتاه پیگیری با نویسنده.

ما به‌طور مستمر روی خروجی‌های جدیدترین مدل‌های مولد بازآموزی می‌کنیم، اما همیشه یک تأخیر وجود دارد: مدلی که هفته گذشته منتشر شده ممکن است در داده‌های آموزشی خوب نمایندگی نشده باشد. اگر جریان کاری شما به شناسایی جدیدترین مدل‌ها بستگی دارد، صفحه معیارسنجی ما را هر سه ماه یک‌بار برای اعداد به‌روزشده مجدداً بررسی کنید.

دانلود مجموعه داده کامل

ما نتایج اعتبارسنجی خام را منتشر می‌کنیم تا پژوهشگران، روزنامه‌نگاران و مربیان بتوانند ادعاهای ما را به‌صورت مستقل تأیید کنند. CSV شامل: شناسه نمونه، هویت مدل مولد (یا 'human')، برچسب نوع مقاله، خروجی احتمال خام، حکم دودویی در آستانه ۵۰٪، حکم دودویی در آستانه ۲۶.۵۶٪.

دانلود: ai-detector-benchmark-2026-04.csv (به‌روزرسانی فصلی). استفاده دانشگاهی بدون محدودیت است؛ انتشار مجدد تجاری نیاز به انتساب دارد: “آشکارساز سرقت ادبی — معیارسنجی تشخیص هوش مصنوعی ۲۰۲۶-۰۴”.

برای یک نسخه تعاملی از همان روش‌شناسی روی متن خودتان، ابزار بررسی‌کننده هوش مصنوعی & سرقت ادبی ما را امتحان کنید — هر سندی را جایگذاری کنید و حکم به‌ازای هر جمله، همان آستانه‌های تصمیم و همان فاصله اطمینانی که برای این اعداد منتشرشده استفاده می‌کنیم را ببینید.

سؤالات متداول

این معیارسنجی چقدر به‌روزرسانی می‌شود؟
هر سه ماه یک‌بار. وقتی یک مدل مولد اصلی (GPT-6، Claude 5، Gemini 3) عرضه می‌شود، ظرف ۴ هفته آن را به مجموعه آزمایشی اضافه کرده و جدول به‌روزشده را مجدداً منتشر می‌کنیم. نسخه‌های تاریخی با نام‌های فایل دارای تاریخ بایگانی می‌شوند — نسخه ۲۰۲۶-۰۴ نسخه پایدار فعلی است.
چرا خروجی‌های احتمال به‌ازای هر نمونه را منتشر نمی‌کنید؟
ما این کار را می‌کنیم — CSV قابل دانلود شامل احتمال‌های خام است. آنچه منتشر نمی‌کنیم متن اصلی مقاله است، زیرا مجموعه PAN25 و مجموعه داده PERSUADE محدودیت‌های توزیع مجدد دارند. اگر متن می‌خواهید، مستقیماً آن مجموعه‌ها را از منبعشان دریافت کنید (لینک‌ها در مستندات CSV).
آیا می‌توانم به آشکارسازی اعتماد کنم که AUC آن کمتر از ۱.۰ است؟
هیچ آشکارسازی روی هر مدل مولد به AUC 1.0 دست نمی‌یابد، پس سوال این نیست که ‘آیا کامل است’ بلکه ‘آیا شفاف است.’ آشکارسازی که AUC 0.95 را منتشر می‌کند و به شما می‌گوید کجا با مشکل مواجه می‌شود قابل اعتمادتر از آشکارسازی است که ‘دقت پیشرو در صنعت’ را بدون هیچ عددی منتشر می‌کند. AUC ما [AUC: 0.9884] عملکرد میانگین صادقانه است؛ تفکیک‌های به‌ازای هر مدل و به‌ازای هر نوع مقاله جایی است که باید تصمیم خرید خود را اتخاذ کنید.
آیا آشکارساز هوش مصنوعی شما برای انتشار دانشگاهی آماده است؟
روش‌شناسی زیربنایی آماده است — بینوکولارز (ICML 2024) و ModernBERT هر دو معماری‌های بررسی‌شده توسط همتا هستند. مجموعه تنظیم‌دقیق و آستانه‌های خاص ما اختصاصی هستند اما روش‌شناسی معیارسنجی کاملاً قابل تکرار است.
ابزار آنلاین رایگان در مقایسه با محصول دسکتاپ چگونه است؟
همان موتور، همان اعداد دقت، همان منطق حکم به‌ازای هر جمله. محصول دسکتاپ طول سند نامحدود، اسکن آفلاین، تطابق یکپارچه سرقت ادبی در برابر ۴ میلیارد صفحه وب و پردازش دسته‌ای پوشه‌های کامل را اضافه می‌کند. برای بررسی‌های تک‌باره ابزار آنلاین کافی است؛ برای جریان‌های کاری روزانه دسکتاپ ابزار مناسب است.

نتایج معیارسنجی از مجموعه اعتبارسنجی داخلی ما استخراج شده‌اند و ممکن است برای متن خارج از توزیع قابل تعمیم نباشند. اعداد منتشرشده عملکرد میانگین در ۱٬۰۰۰ نمونه را نشان می‌دهند؛ سند شما ممکن است به‌گونه‌ای متفاوت امتیاز بگیرد. نتایج تشخیص هوش مصنوعی را به عنوان یکی از ورودی‌ها در میان بسیاری، نه به عنوان تنها شاهد نویسندگی، به‌کار ببرید.