Не всеки AI текст е еднакво разпознаваем. Ето резултатите от нашия тест по генератор — кои семейства модели нашият детектор улавя почти перфектно, с кои се затруднява и какво означава това за избора на работен поток за разпознаване.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Наредени от най-лесни до най-трудни за разпознаване в нашата валидационна съвкупност. Разпространението е широко — AUC при някои семейства модели надвишава 0,99, докато при други пада в диапазона 0,80. Трудността за разпознаване корелира с размера на модела, сложността на инструкционното настройване и вариацията в изхода.
За пълната методология на разбивката по генератор, вижте нашата страница с тест за точност. Тази статия резюмира практическите последствия от тези данни за потребители, избиращи на кой детектор да се доверят и кой модел да използват.
GPT-3.5 е най-лесният съвременен модел за разпознаване — AUC [AUC: ?] при нашата съвкупност. Артефактите от по-ранно поколение (повторение, предпазливост, безличностен регистър) остават ясно присъстващи. GPT-4 пада до AUC [AUC: ?], GPT-4o до [AUC: ?], отразявайки прогресивно по-добра калибровка. GPT-5.x е най-трудният от семейството — AUC [AUC: ?] — защото екипът за инструкционно настройване изрично е насочен към премахване на артефактите за разпознаване.
Практически извод: академичните работни потоци, загрижени за измама от ерата на GPT-3.5, могат да разчитат значително на разпознаването само по себе си. Работните потоци, загрижени за GPT-5, трябва да съчетаят разпознаването с контекстуални доказателства, като описано в нашето ръководство за работния поток за учители.
Настройките на температурата са от значение. Изходите с ниска температура (t≤0,5) са по-лесни за разпознаване, защото концентрират вероятностната маса върху по-тесен речник. Повечето чат интерфейси по подразбиране работят при t≈0,7, поставяйки текста в умерено разпознаваема зона. Противниковите потребители изрично увеличават температурата или използват разнообразно декодиране, за да разширят диапазона и да избегнат разпознаването — нашият ансамбъл частично коригира за това, но не напълно.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Семейството Claude последователно произвежда по-малко повтарящ се, по-стилистично разнообразен текст от GPT моделите от същото поколение, което го прави по-трудно за разпознаване чрез статистически методи.
Конституционно-AI обучението на Claude изрично е насочено към “машинните белези”, от които се учи нашият надзиран класификатор — образци на предпазливост, прекомерна употреба на конкретни свързващи думи, предсказуема структура на параграфа. Това е пряка противниковска връзка: генераторът е обучен срещу характеристиките, от които зависи детекторът.
Claude 4.5 Sonnet и GPT-5.x са близки по трудност. Техните разпределения на резултатите се припокриват най-много с базовата линия за хора в нашите данни за валидиране. Ако работният ви поток е насочен към някой от тези модели, очаквайте намален обхват при прага по подразбиране и обмислете намаляване до F1-оптималния за скрининг с висока чувствителност.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini е показал най-променлива производителност на разпознаване в различните версии — някои междинни издания временно са регресирали преди да дойдат подобрения.
Многомодалното обучение на Gemini означава, че само-текстовите изходи понякога носят остатъчни образци от областите с надписи на изображения или обяснения на код. Нашият детектор улавя тези образци, което обяснява малко по-високата разпознаваемост на Gemini при подсказки от смесена область в сравнение с чиста проза.
За потребителите на Google Workspace, чиито ученици или служители използват Gemini чрез Docs, сигналът за разпознаване е подобен на необработения API изход. Не сме наблюдавали образци за избягване, специфични за workspace интеграцията, отличаващи се от директното използване на Gemini API.
Поставете изход от произволен LLM и вижте решението по изречение. Нашият детектор третира всички 22 семейства модели като единична ансамблова проверка.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Моделите с отворени тегла обхващат по-широк диапазон от затворените — варианти с финно настройване, квантизирани внедрявания и контролни точки, модифицирани от общността, всички произвеждат малко по-различни изходи.
Разпознаването на отворени тегла е стратегически важно, защото хуманизаторните инструменти обикновено са изградени на базата на модели с отворени тегла — производни на Llama и Mistral работят локално с ниска цена, поради което услугите за перефразиране и прехвърляне на стил ги предлагат на ниска цена. Ако загрижеността ви е хуманизираният AI, в крайна сметка се защитавате срещу генерирането от семейство Llama.
DeepSeek R1 и o3-mini (OpenAI reasoning модел) заслужават отделно споменаване. И двата произвеждат текст с артефакти от вериги на разсъждение — изрична логика стъпка по стъпка, видима в изхода — която нашият детектор е научил да разпознава. Reasoning моделите в момента са по-лесни за разпознаване от своите основни чат аналози по тази причина.
Ако избирате модел, с който да пишете, и разпознаването не е загрижеността ви, Claude 4.5 Sonnet и GPT-5 са най-трудните за разпознаване. Ако изграждате работен поток за разпознаване, приоритизирайте за моделите, които действително виждате: повечето академични злоупотреби все още работят на GPT-4/5 чрез безплатни интерфейси; повечето разпространители на съдържание работят на хуманизатори с производни на Llama.
Единичен детектор, обучен на единично семейство модели, ще се представя най-зле при останалите. Нашият ансамблов подход обучава с образци от всички 22 генератора, затова AUC по модели при трудни случаи (Claude 4.5, GPT-5) е все още над 0,90, докато единичен детектор, обучен на един модел, би паднал под 0,80.
Основната тенденция: трудността за разпознаване нараства по-бързо от кадансата на пускане на генераторите. Всеки нов флагман е по-труден за разпознаване от предишния, преобучаването затваря разликата, но не напълно. Очаквайте базовата линия за 2026–2027 г. да бъде по-нисък AUC при frontier моделите и приблизително постоянен при legacy моделите.
Числата AUC по модели произхождат от нашето вътрешно валидиране и може да не се обобщят. Трудността на всеки модел се променя с времето, тъй като и генераторът, и нашият корпус за обучение се развиват. Текущите данни отразяват тестовия цикъл за 2026-04.