ما دقت واقعی آشکارساز هوش مصنوعیمان را در برابر ۲۲ مدل مولد، از جمله GPT-5، Claude 4، Gemini 2 و Llama 3، منتشر میکنیم. جدولهای بهازای هر مدل، محدودیتهای صادقانه و مجموعه داده قابل دانلود برای پژوهشگران.
بیشتر ابزارهای تشخیص هوش مصنوعی از شما میخواهند به یک امتیاز مبهم اعتماد کنید. ما بر این باوریم که شما شایسته شواهد هستید. در این صفحه نتایج کامل اجرای اعتبارسنجی داخلیمان را به اشتراک میگذاریم — هر مدلی که آزمایش کردیم، امتیاز AUC-ROC روی آن، انواع مقالههایی که بیشترین دشواری را برایمان ایجاد کردند، و آستانههای تصمیمگیری که در محیط تولید استفاده میکنیم.
این سطح از شفافیت در حوزه تشخیص هوش مصنوعی غیرمعمول است. اکثر رقبا — فروشندگان ابزارهای بررسی سرقت ادبی، سرویسهای تخصصی تشخیص هوش مصنوعی، ابزارهای عمومی SaaS — یا هیچ داده دقتی منتشر نمیکنند یا یک عدد گزینششده دلخواه ارائه میدهند. این الگو پایدار نیست: مربیان، ناشران و پژوهشگران پیش از اینکه بتوانند به هر ابزاری تکیه کنند، به معیارسنجیهای قابل تکرار نیاز دارند.
اعداد ما از یک تقسیم اعتبارسنجی ۱٬۰۰۰ نمونهای از مجموعه کالیبراسیون مورد استفاده برای آموزش آشکارساز ModernBERT ما به دست میآیند. همان روششناسی که این معیارسنجی را هدایت میکند روی هر سندی که از طریق ابزار ما ارسال میکنید اجرا میشود. هیچ چیزی برای نمایش نگه داشته نشده است.
مجموعه اعتبارسنجی شامل ۱٬۰۰۰ مقاله از یک مجموعه کالیبراسیون ۱٬۲۰۰ نمونهای است: ۶۰۰ مقاله نوشتهشده توسط انسان (از دادههای وظیفه مشترک PAN25 و مجموعه مقالات استدلالی PERSUADE) و ۶۰۰ مقاله تولیدشده توسط هوش مصنوعی (تولیدشده توسط ۲۲ مدل زبانی بزرگ مجزا تحت شرایط کنترلشده). تقسیم ۸۰/۲۰ آموزش-اعتبارسنجی ثابت و قابل تکرار است.
هر نمونه بهصورت مستقل امتیازبندی میشود، بدون دسترسی به فرادادهای که ممکن است حقیقت زمینهای را فاش کند. آشکارساز یک احتمال در بازه [0، 100] برمیگرداند که نشاندهنده احتمال تولیدشده بودن نمونه توسط هوش مصنوعی است. سپس ناحیه زیر منحنی مشخصه عملکرد دریافتکننده (AUC-ROC) را بهازای هر مدل و در سطح نوع مقاله محاسبه میکنیم.
تمام آستانهها، فراپارامترهای آموزش و خروجیهای احتمال خام ثبت میشوند. خود مجموعه داده برای دانلود در انتهای این صفحه موجود است — قالب CSV، یک ردیف برای هر نمونه، با هویت مدل مولد، برچسب نوع مقاله، امتیاز خام و حکم دودویی نهایی.
در کل مجموعه ۱٬۰۰۰ نمونهای، آشکارساز ترکیبی ما به AUC-ROC [AUC: 0.9884] دست مییابد. در آستانه تصمیم ۵۰٪ که در محیط تولید استفاده میکنیم: ۰ مثبت کاذب روی مقالات انسانی در مجموعه اعتبارسنجی، و ۶۰٪ بازخوانی روی مقالات هوش مصنوعی. در آستانه بهینه F1 معادل ۲۶.۵۶٪، بازخوانی به ۹۰٪ میرسد با هزینه ۲٪ مثبت کاذب — معاملهای که برای جریانهای کاری با حساسیت بالا مناسبتر است.
حکم سطح سند در ابزار عمومی ما از آستانه محافظهکارانه ۵۰٪ استفاده میکند و اولویت را به صفر مثبت کاذب بر حداکثر بازخوانی میدهد. مربیان، ناشران و پژوهشگران میتوانند این مقدار را از طریق لغزنده حساسیت در ابزار زمانی که میخواهند علامتگذاری تهاجمیتری داشته باشند، نادیده بگیرند.
برای مقایسه، مؤلفه zero-shot بینوکولارز بهتنهایی (یک تنظیم ۲× Llama-3.1-8B) بهصورت مستقل AUC [AUC: 0.8509] کسب میکند. مؤلفه ModernBERT تنظیمشده بهتنهایی [AUC: 1.0000] روی مقالات داخل توزیع و [AUC: 0.9069] روی متن خارج از توزیع کسب میکند. ترکیب در هر محور منفرد بین آنها قرار میگیرد اما بهطور میانگین از هر دو پیشی میگیرد زیرا ضعفهای مکمل آنها را تصحیح میکند.
این جدول AUC-ROC بهازای هر مدل است. مدلها از آسانترین تا سختترین برای تشخیص در مجموعه اعتبارسنجی ما مرتب شدهاند. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
مدلهای OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. سایرین: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
الگوی اصلی: مدلهای جدیدتر، بزرگتر و دارای تنظیم دستورالعمل تمایل دارند متنی تولید کنند که برای هر آشکارساز آماری، از جمله ما، بیشتر شبیه انسان به نظر برسد. Claude 4.5 Sonnet و GPT-5.x دو خانوادهای هستند که توزیعهای امتیاز ما بیشترین همپوشانی با خط پایه انسانی دارند. این با هر مطالعه مستقل منتشرشده در سال ۲۰۲۵ مطابقت دارد — مسابقه تسلیحاتی واقعی است و اندازه مدل یک عامل منفی مستقیم برای تشخیص است.
همه متنها به یک اندازه قابل تشخیص نیستند. نتایج را بهازای نوع مقاله — هر دسته از سوالات PERSUADE — تفکیک میکنیم و شکاف بین بهترین و بدترین گسترده است. [PER-TYPE TABLE]
مقالات استدلالی، اقناعی و توضیحی: قویترین حوزه آشکارساز. AUC معمولاً ۰.۹۷–۱.۰۰ است زیرا مجموعههای آموزشی این سبکها را بیش از حد نمایندگی میکنند. این حوزه جایی است که بیشتر موارد استفاده در یکپارچگی دانشگاهی قرار میگیرند.
نوشتههای خلاقانه و تحلیل ادبی: ضعیفترین حوزه ما. برای تحلیل ادبی AUC به ۰.۶۹ کاهش مییابد — سبک انسانی در داستان با خروجیهای LLM همگرا میشود و نه مؤلفه نظارتشده و نه مؤلفه zero-shot ما نمیتوانند بهطور قابل اطمینان آنها را تمیز دهند. امتیاز بالای هوش مصنوعی در داستان را با تردید بنگرید.
هر سندی را جایگذاری کنید و همان حکم بهازای هر جمله و آستانههای تصمیمی که برای این اعداد معیارسنجی استفاده میکنیم را ببینید. رایگان، بدون ثبتنام.
سه دسته متن بیشتر از آنچه مجموعه اعتبارسنجی ما نشان میدهد از آشکارساز ما فرار میکنند. متن هوش مصنوعی انسانیسازیشده — خروجیای که از یک ابزار پارافریز خصمانه یا انتقال سبک عبور کرده — اغلب حتی وقتی متن زیرین کاملاً تولیدشده بوده به عنوان انسانی امتیاز میگیرد. متن کوتاه (زیر ۱۰۰ کلمه) اصلاً بهسختی قابل طبقهبندی است زیرا سیگنال آماری کافی وجود ندارد. نوشتار غیرانگلیسیزبان میتواند به عنوان تولیدشده توسط هوش مصنوعی امتیاز بگیرد زیرا LLMها و نویسندگان زبان دوم ترجیحات واژگانی و نحوی مشترکی دارند.
آشکارساز ما احتمالاتی است، نه شواهدی. امتیاز بالای هوش مصنوعی یک سیگنال برای بررسی بیشتر است، نه دلیلی بر تخلف. ما بهشدت توصیه میکنیم امتیاز را با زمینه ترکیب کنید: تاریخچه ویرایش اخیر، پیشنویسها، نمونههای نوشتاری از همان نویسنده، و — در صورت مجاز بودن — یک مکالمه کوتاه پیگیری با نویسنده.
ما بهطور مستمر روی خروجیهای جدیدترین مدلهای مولد بازآموزی میکنیم، اما همیشه یک تأخیر وجود دارد: مدلی که هفته گذشته منتشر شده ممکن است در دادههای آموزشی خوب نمایندگی نشده باشد. اگر جریان کاری شما به شناسایی جدیدترین مدلها بستگی دارد، صفحه معیارسنجی ما را هر سه ماه یکبار برای اعداد بهروزشده مجدداً بررسی کنید.
ما نتایج اعتبارسنجی خام را منتشر میکنیم تا پژوهشگران، روزنامهنگاران و مربیان بتوانند ادعاهای ما را بهصورت مستقل تأیید کنند. CSV شامل: شناسه نمونه، هویت مدل مولد (یا 'human')، برچسب نوع مقاله، خروجی احتمال خام، حکم دودویی در آستانه ۵۰٪، حکم دودویی در آستانه ۲۶.۵۶٪.
دانلود: ai-detector-benchmark-2026-04.csv (بهروزرسانی فصلی). استفاده دانشگاهی بدون محدودیت است؛ انتشار مجدد تجاری نیاز به انتساب دارد: “آشکارساز سرقت ادبی — معیارسنجی تشخیص هوش مصنوعی ۲۰۲۶-۰۴”.
برای یک نسخه تعاملی از همان روششناسی روی متن خودتان، ابزار بررسیکننده هوش مصنوعی & سرقت ادبی ما را امتحان کنید — هر سندی را جایگذاری کنید و حکم بهازای هر جمله، همان آستانههای تصمیم و همان فاصله اطمینانی که برای این اعداد منتشرشده استفاده میکنیم را ببینید.
نتایج معیارسنجی از مجموعه اعتبارسنجی داخلی ما استخراج شدهاند و ممکن است برای متن خارج از توزیع قابل تعمیم نباشند. اعداد منتشرشده عملکرد میانگین در ۱٬۰۰۰ نمونه را نشان میدهند؛ سند شما ممکن است بهگونهای متفاوت امتیاز بگیرد. نتایج تشخیص هوش مصنوعی را به عنوان یکی از ورودیها در میان بسیاری، نه به عنوان تنها شاهد نویسندگی، بهکار ببرید.