У дома › Кой AI е най-трудно да се открие? GPT срещу Claude срещу Gemini | Детектор на плагиатство

Кой AI е най-трудно да се открие? GPT срещу Claude срещу Gemini срещу Llama

Не всеки AI текст е еднакво разпознаваем. Ето резултатите от нашия тест по генератор — кои семейства модели нашият детектор улавя почти перфектно, с кои се затруднява и какво означава това за избора на работен поток за разпознаване.

2026-04-17 · Plagiarism Detector Team

Кратък отговор — Класация

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Наредени от най-лесни до най-трудни за разпознаване в нашата валидационна съвкупност. Разпространението е широко — AUC при някои семейства модели надвишава 0,99, докато при други пада в диапазона 0,80. Трудността за разпознаване корелира с размера на модела, сложността на инструкционното настройване и вариацията в изхода.

За пълната методология на разбивката по генератор, вижте нашата страница с тест за точност. Тази статия резюмира практическите последствия от тези данни за потребители, избиращи на кой детектор да се доверят и кой модел да използват.

Семейство OpenAI — GPT

GPT-3.5 е най-лесният съвременен модел за разпознаване — AUC [AUC: ?] при нашата съвкупност. Артефактите от по-ранно поколение (повторение, предпазливост, безличностен регистър) остават ясно присъстващи. GPT-4 пада до AUC [AUC: ?], GPT-4o до [AUC: ?], отразявайки прогресивно по-добра калибровка. GPT-5.x е най-трудният от семейството — AUC [AUC: ?] — защото екипът за инструкционно настройване изрично е насочен към премахване на артефактите за разпознаване.

Практически извод: академичните работни потоци, загрижени за измама от ерата на GPT-3.5, могат да разчитат значително на разпознаването само по себе си. Работните потоци, загрижени за GPT-5, трябва да съчетаят разпознаването с контекстуални доказателства, като описано в нашето ръководство за работния поток за учители.

Настройките на температурата са от значение. Изходите с ниска температура (t≤0,5) са по-лесни за разпознаване, защото концентрират вероятностната маса върху по-тесен речник. Повечето чат интерфейси по подразбиране работят при t≈0,7, поставяйки текста в умерено разпознаваема зона. Противниковите потребители изрично увеличават температурата или използват разнообразно декодиране, за да разширят диапазона и да избегнат разпознаването — нашият ансамбъл частично коригира за това, но не напълно.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Семейството Claude последователно произвежда по-малко повтарящ се, по-стилистично разнообразен текст от GPT моделите от същото поколение, което го прави по-трудно за разпознаване чрез статистически методи.

Конституционно-AI обучението на Claude изрично е насочено към “машинните белези”, от които се учи нашият надзиран класификатор — образци на предпазливост, прекомерна употреба на конкретни свързващи думи, предсказуема структура на параграфа. Това е пряка противниковска връзка: генераторът е обучен срещу характеристиките, от които зависи детекторът.

Claude 4.5 Sonnet и GPT-5.x са близки по трудност. Техните разпределения на резултатите се припокриват най-много с базовата линия за хора в нашите данни за валидиране. Ако работният ви поток е насочен към някой от тези модели, очаквайте намален обхват при прага по подразбиране и обмислете намаляване до F1-оптималния за скрининг с висока чувствителност.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini е показал най-променлива производителност на разпознаване в различните версии — някои междинни издания временно са регресирали преди да дойдат подобрения.

Многомодалното обучение на Gemini означава, че само-текстовите изходи понякога носят остатъчни образци от областите с надписи на изображения или обяснения на код. Нашият детектор улавя тези образци, което обяснява малко по-високата разпознаваемост на Gemini при подсказки от смесена область в сравнение с чиста проза.

За потребителите на Google Workspace, чиито ученици или служители използват Gemini чрез Docs, сигналът за разпознаване е подобен на необработения API изход. Не сме наблюдавали образци за избягване, специфични за workspace интеграцията, отличаващи се от директното използване на Gemini API.

Проверете образец от всеки модел

Поставете изход от произволен LLM и вижте решението по изречение. Нашият детектор третира всички 22 семейства модели като единична ансамблова проверка.

Meta и модели с отворени тегла

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Моделите с отворени тегла обхващат по-широк диапазон от затворените — варианти с финно настройване, квантизирани внедрявания и контролни точки, модифицирани от общността, всички произвеждат малко по-различни изходи.

Разпознаването на отворени тегла е стратегически важно, защото хуманизаторните инструменти обикновено са изградени на базата на модели с отворени тегла — производни на Llama и Mistral работят локално с ниска цена, поради което услугите за перефразиране и прехвърляне на стил ги предлагат на ниска цена. Ако загрижеността ви е хуманизираният AI, в крайна сметка се защитавате срещу генерирането от семейство Llama.

DeepSeek R1 и o3-mini (OpenAI reasoning модел) заслужават отделно споменаване. И двата произвеждат текст с артефакти от вериги на разсъждение — изрична логика стъпка по стъпка, видима в изхода — която нашият детектор е научил да разпознава. Reasoning моделите в момента са по-лесни за разпознаване от своите основни чат аналози по тази причина.

Какво означават тези разлики за вас

Ако избирате модел, с който да пишете, и разпознаването не е загрижеността ви, Claude 4.5 Sonnet и GPT-5 са най-трудните за разпознаване. Ако изграждате работен поток за разпознаване, приоритизирайте за моделите, които действително виждате: повечето академични злоупотреби все още работят на GPT-4/5 чрез безплатни интерфейси; повечето разпространители на съдържание работят на хуманизатори с производни на Llama.

Единичен детектор, обучен на единично семейство модели, ще се представя най-зле при останалите. Нашият ансамблов подход обучава с образци от всички 22 генератора, затова AUC по модели при трудни случаи (Claude 4.5, GPT-5) е все още над 0,90, докато единичен детектор, обучен на един модел, би паднал под 0,80.

Основната тенденция: трудността за разпознаване нараства по-бързо от кадансата на пускане на генераторите. Всеки нов флагман е по-труден за разпознаване от предишния, преобучаването затваря разликата, но не напълно. Очаквайте базовата линия за 2026–2027 г. да бъде по-нисък AUC при frontier моделите и приблизително постоянен при legacy моделите.

Често задавани въпроси

Ако някои модели са по-трудни за разпознаване, трябва ли изобщо да избягвам използването на детектори?

Не — дори при най-трудните семейства модели нашият AUC е над 0,85, което е силен сигнал. Въпросът е как използвате сигнала. За трудни за разпознаване модели, комбинирайте резултата с потвърждаващи доказателства (история на редактиране, работа в клас, разговор с ученика). За по-лесни модели резултатът сам по себе си е достатъчен.

Кой модел трябва да използвам, ако искам да избегна разпознаването?

Не отговаряме директно на този въпрос — ние управляваме инструмент за разпознаване, а не ръководство за избягване. Това, което ще кажем: разпознаваем-срещу-неразпознаваем не е правилната ос за избор на модел. Качеството, цената и пригодността за целта имат много по-голямо значение от трудността за разпознаване. Ако пишете законно с помощта на AI, оповестяването и прозрачният работен поток имат по-голямо значение от скриването на инструмента.

Имат ли вариантите на модели с отворени тегла различни профили за разпознаване?

Да, и значимо. Вариант на Llama 3.3 с финно настройване от общността, обучен за конкретен стил на писане, може да произвежда текст, получаващ различен резултат от стандартния Llama 3.3. Нашият тест обхваща стандартната контролна точка; персонализираното финно настройване може да е по-лесно (ако стеснява разпределенията на изхода) или по-трудно (ако изрично се обучава противниково срещу разпознаването).

Как температурата и вземането на проби влияят върху разпознаваемостта?

По-висока температура и по-разнообразно вземане на проби обикновено намаляват разпознаваемостта, защото разширяват разпределението на изхода. Алчното декодиране с ниска температура е най-лесно за разпознаване. Повечето производствени чат интерфейси работят при t≈0,7–1,0 с ядрено вземане на проби, поставяйки ги в умерено разпознаваем режим — нашият ансамбъл се представя по подобен начин в целия диапазон по подразбиране.

Кога ще пристигнат GPT-6 или Claude 5 и какво да очаквам?

Средата на 2026 г. е консенсусната прогноза и за двата. Очаквайте AUC на разпознаване при новите семейства да спадне в диапазона 0,80–0,85 за първите 4–8 седмици след пускането, докато събираме образци и преобучаваме. Историческите версии предполагат пълно възстановяване в рамките на 8–12 седмици, ако моделът е широко достъпен; по-дълго за редки или ограничен достъп модели.

Числата AUC по модели произхождат от нашето вътрешно валидиране и може да не се обобщят. Трудността на всеки модел се променя с времето, тъй като и генераторът, и нашият корпус за обучение се развиват. Текущите данни отразяват тестовия цикъл за 2026-04.