تشخیص و تولید در یک مسابقه گربه و موش قفل شدهاند. هر نسخه مدل جدید شکاف آماری که آشکارسازها به آن متکی هستند را میبندد — و هر پیشرفت تشخیصی با یک ابزار انسانیساز جدید پاسخ میگیرد. این چیزی است که واقعاً در پس پرده اتفاق میافتد.
هر آشکارساز متن هوش مصنوعی در نهایت یک تمیزدهنده آماری است — ویژگیهای متن (احتمالهای توکن، شگفتی، پرجنبوجوشی، قاعدهمندی نحوی) را بررسی میکند و تلاش میکند سیگنالهایی بیابد که محتوای تولیدشده توسط ماشین را از محتوای نوشتهشده توسط انسان متمایز میکنند. روش بینوکولارز (ICML 2024) از نسبت cross-perplexity بین دو مدل زبانی به عنوان سیگنال استفاده میکند. رویکرد نظارتشده ModernBERT سیگنال را مستقیماً از مثالهای برچسبگذاریشده میآموزد.
هر دو رویکرد یک آسیبپذیری بنیادی مشترک دارند: سیگنالهایی که به آنها متکی هستند اثرات جانبی نحوه تولید متن توسط مدلها هستند، نه ویژگیهای اساسی ماشیننویس بودن. با بهبود مدلهای مولد، آن اثرات جانبی کوچکتر میشوند. مدلی که برای نوشتن بیشتر شبیه انسان آموزش دیده — به تعریف — سختتر قابل تشخیص خواهد بود.
این یک شکست پژوهشی نیست. یک حقیقت ساختاری درباره مسئله است. تشخیص روی یک هدف متحرک عمل میکند: هر نسخه اصلی LLM شکاف را میبندد، هر ابزار انسانیساز بهصراحت در برابر خروجیهای آشکارساز آموزش میبیند. سوال این نیست که ‘آیا میتوانیم برای همیشه ۱۰۰٪ تشخیص داشته باشیم’ — این امکانپذیر نیست — بلکه ‘آیا میتوانیم به اندازه کافی از نسل فعلی جلوتر بمانیم تا در عمل مفید باشیم.’
سه روند تولید تشخیص را دشوارتر میکنند. اندازه: مدلهای بزرگتر از لحاظ آماری متن متنوعتری تولید میکنند زیرا توزیعهای داخلی غنیتری دارند. یک مدل ۷۰ میلیارد پارامتری طیف گستردهتری از خروجی شبیه انسان نسبت به مدل ۷ میلیارد پارامتری دارد. تنظیم دستورالعمل: RLHF و روشهای اساسنامهای به مدلها میآموزند از الگوهای تکراری، مبهم و کسالتآوری که GPT-3 را آسان برای تشخیص میکرد اجتناب کنند. دما و نمونهبرداری: رابطهای گپ به سمت nucleus sampling و تصادفیسازی حرکت کردهاند که برخی از الگوهای کمواریانسی را که آشکارسازهای کلاسیک به عنوان لنگرگاه استفاده میکردند میشکنند.
GPT-5، Claude 4.5 و Gemini 2.5 همه بهطور قابل توجهی نسبت به نسلهای قبلیشان سختتر برای تشخیص هستند. اعتبارسنجی داخلی ما این را تأیید میکند: هر نسل مدل AUC ما روی آن خانواده را ۵–۱۰ درصد نسبت به نسل قبلی کاهش میدهد. برای اعداد بهازای هر مدل، به معیارسنجی دقت ما مراجعه کنید.
ابزارهای انسانیساز — Undetectable AI، StealthWriter، Humanbeing، و فهرستی رو به رشد — دشمنان صریح هستند. خروجی هوش مصنوعی را میگیرند و بهطور خاص برای شکست دادن آشکارسازها پارافریز، بازنویسی یا انتقال سبک میکنند. آنها در برابر آشکارسازهای عمومی (از جمله ما، هرچند ما وزنهای مدل را هرگز به اشتراک نمیگذاریم) آموزش میبینند و با هر بهروزرسانی بهطور قابل اندازهگیری بهتر میشوند.
آشکارسازها سه پاسخ به مسابقه تسلیحاتی تولید دارند. ترکیببندی: ترکیب چندین سیگنال تشخیصی بهطوری که هیچ تاکتیک فرار منفردی کافی نباشد. ترکیب ما از بینوکولارز zero-shot با ModernBERT نظارتشده از این بهره میبرد: یک انسانیساز که یک مؤلفه را شکست میدهد اغلب در برابر مؤلفه دیگر شکست میخورد، و امتیاز ترکیبی هر دو را ضبط میکند.
بازآموزی مستمر: ما ظرف ۴ هفته از عرضه، نمونههایی از هر نسخه مولد جدید اصلی اضافه میکنیم. اگر GPT-6 فردا عرضه شود، مجموعه آموزشی ما تا اواسط ماه بعد آن را در بر خواهد گرفت. این هزینهبر است — محاسبه، حاشیهنویسی، اعتبارسنجی مجدد — اما تنها راه برای بهروز نگه داشتن تشخیص است. آشکارسازهایی که سالانه یا کمتر بازآموزی میکنند در یک سال بهطور مؤثر موزهای میشوند.
آموزش خصمانه: ما عمداً روی نمونههای هوش مصنوعی انسانیسازیشده و خروجیهای پارافریزشده آموزش میدهیم و به مدل میآموزیم فراتر از انتقال سبک سطحی را ببیند. این حداقل کاری را که یک انسانیساز باید برای فرار از ما انجام دهد بالا میبرد، که به نوبه خود مسابقه تسلیحاتی را کند میکند.
ابزارهای انسانیساز واقعاً چگونه کار میکنند؟ سه دسته گسترده. پارافریز: متن را کلمه به کلمه یا جمله به جمله با یک LLM ثانویه بازنویسی کنید. در برابر آشکارسازهای سادهای که به دنبالههای توکن دقیق متکی هستند مؤثر است؛ در برابر روشهای آماری تا حدی مؤثر است. انتقال سبک: متن را برای تقلید از نویسنده یا سبک خاصی تبدیل کنید. مؤثرتر — AUC آشکارساز ما روی متن هوش مصنوعی منتقلشده سبک حدود ۸ درصد کاهش مییابد.
ویرایش ترکیبی انسان-هوش مصنوعی: نویسنده یک پیشنویس مینویسد، آن را از طریق یک LLM برای تصفیه اجرا میکند، سپس نسخه تصفیهشده را بهصورت دستی ویرایش میکند. این سختترین حالت است — کار همکاری مشروع که سیگنالهای انسانی و ماشینی را در سطح جمله ترکیب میکند. هیچ آشکارسازی، از جمله ما، نمیتواند بدون فراداده تاریخچه ویرایشی که آشکارساز نمیتواند ببیند اینها را بهطور قابل اطمینان حل کند.
یک مدل ذهنی مفید: یک انسانیساز یک آشکارسازشکن نیست، بلکه یک ضریب هزینه برای فرارکننده است. زمان میبرد، گاهی پول، و همیشه خطر معرفی خطاها را اضافه میکند. اکثر تلاشهای تقلب دانشگاهی از انسانیسازها استفاده نمیکنند زیرا اصطکاک بیشتر از سود است. جایی که انسانیسازها غلبه دارند کشاورزی محتوای حرفهای و هرزنامه SEO تولیدشده توسط هوش مصنوعی است — موارد استفاده که در آنها توان عملیاتی مهم است و کنترل کیفیت ضعیف است.
هر سندی را جایگذاری کنید و حکم بهازای هر جمله را در زمان واقعی تماشا کنید. منطق ترکیبی توصیفشده در بالا روی متن شما در زیر ۳۰ ثانیه اجرا میشود.
یک آشکارساز تکسیگنال یک حالت شکست منفرد دارد. اگر فقط به شگفتی متکی باشید، یک خروجی پارافریزشده با احتمالهای توکن تغییریافته شما را شکست میدهد. اگر فقط به یک طبقهبند نظارتشده متکی باشید، متن خارج از توزیع (یک خانواده مدل جدید، یک حوزه نوشتاری جدید) شما را شکست میدهد. یک ترکیب ضعفها را میانگین میکند: پارافریزی که شگفتی را شکست میدهد احتمالاً هنوز سر نظارتشده را به دام میاندازد، و بالعکس.
آشکارساز تولید ما بهصراحت ترکیب شده است: ۳۵٪ بینوکولارز (zero-shot، مستقل از مدل، مقاوم در برابر خارج از توزیع) + ۶۵٪ ModernBERT (نظارتشده، دامنهخاص، دقت بالا روی متن داخل توزیع). وزنها بهصورت تجربی انتخاب شدند — AUC ترکیبی زمانی بیشینه شد که ModernBERT غالب بود اما بینوکولارز حق وتو روی موارد حاشیهای را حفظ میکرد.
پیامد: یک ابزار انسانیساز اکنون باید دو معماری تشخیص کاملاً متفاوت را بهطور همزمان شکست دهد تا از حکم ما فرار کند. انسانیسازهای عمومی معمولاً در برابر یک آشکارساز هدف آموزش میبینند، به این معنی که اغلب در برابر آن آشکارساز خاص موفق میشوند اما در برابر یک ترکیب شکست میخورند. این مزیت ساختاری اصلی تشخیص در مسابقه تسلیحاتی فعلی است.
چه انتظاری باید از سالهای ۲۰۲۶–۲۰۲۷ داشته باشیم؟ GPT-6 و Claude 5 احتمالاً نسخههای اواسط سال هستند؛ هر دو شکاف را بیشتر کاهش خواهند داد. مدلهای open-weights — Llama 4، Qwen 4 — تولید با کیفیت بالا را همچنان کالاییتر خواهند کرد و انسانیسازها را در مقیاس ارزانتر اجرا خواهند کرد. AUC تشخیص روی مدلهای مرزی احتمالاً برای اولین سال پس از انتشار به باند ۰.۸۰–۰.۹۰ کاهش مییابد قبل از اینکه بازآموزی آن را تصحیح کند.
در طرف دفاعی: سیگنالهای چندوجهی (پویایی تایپ، تاریخچه ویرایش، تأیید نویسندگی در برابر یک مجموعه شناختهشده) احتمالاً ظرف ۲۴ ماه بیشتر از تشخیص صرف مبتنی بر متن اهمیت خواهند داشت. آشکارساز متنمحور ما اولین فیلتر باقی خواهد ماند اما بهطور فزاینده یک عضو رأیدهنده در یک پشته شواهد غنیتر خواهد بود.
نتیجهگیری صادقانه: تشخیص مبتنی بر متن خالص هرگز به ۱۰۰٪ نخواهد رسید. در حدود ۹۰–۹۵٪ AUC روی متن داخل توزیع و ۷۵–۸۵٪ روی مدلهای مرزی به سطحی خواهد رسید. اگر جریان کاری شما به قطعیت نیاز دارد، به شواهدی فراتر از امتیاز نیاز دارید. اگر جریان کاری شما به یک سیگنال قوی برای اولویتبندی بررسی انسانی نیاز دارد، تشخیص مبتنی بر متن مفید باقی میماند و بهطور قابل اندازهگیری بهتر از انجام ندادن هیچکار است.
این مقاله ویژگیهای ساختاری تشخیص متن هوش مصنوعی را توصیف میکند. اعداد خاص به اعتبارسنجی داخلی ما اشاره دارند و ممکن است قابل تعمیم نباشند. این صفحه را با توجیه پژوهش جدید و عرضه مدلهای مولد بهروز میکنیم.