У дома › Защо AI разпознаването на текст е трудно: Надпреварата атака-защита | Детектор на плагиатство

Защо AI разпознаването на текст е трудно: Надпреварата отвътре

Разпознаването и генерирането са заключени в надпревара котка-и-мишка. Всяко ново издание на модел затваря статистическата разлика, от която зависят детекторите — и всяко подобрение в разпознаването се отговаря с нов хуманизаторен инструмент. Ето какво всъщност се случва под капака.

2026-04-17 · Plagiarism Detector Team

Статистическата основа на разпознаването

Всеки AI детектор за текст е в крайна сметка статистически разграничител — той разглежда характеристики на текста (вероятности на токени, недоумение, буйност, синтактична редовност) и се опитва да намери сигнали, разграничаващи машинно генерираното от написаното от хора съдържание. Методът Binoculars (ICML 2024) използва съотношение на кръстосано недоумение между два езикови модела като свой сигнал. Надзираният подход ModernBERT научава сигнала директно от маркирани примери.

И двата подхода споделят фундаментална уязвимост: сигналите, на които разчитат, са странични ефекти от начина, по който моделите генерират текст, а не фундаментални характеристики на написаното от машини. С подобряването на генераторите тези странични ефекти намаляват. Модел, обучен да пише по-подобно на човек, ще бъде — по дефиниция — по-труден за разпознаване.

Това не е изследователски провал. Това е структурен факт за проблема. Разпознаването работи върху движеща се цел: всяко голямо издание на LLM затваря разликата, всеки хуманизаторен инструмент се обучава изрично срещу изходите на детектора. Въпросът не е ‘можем ли да постигнем 100% разпознаване завинаги’ — не може да се направи — а ‘можем ли да изпреварим настоящото поколение достатъчно дълго, за да бъдем полезни на практика.’

Какво прави мечът — генерирането се подобрява

Три тенденции в генерирането правят разпознаването по-трудно. Размер: по-големите модели произвеждат статистически по-разнообразен текст, защото имат по-богати вътрешни разпределения. Модел с 70 милиарда параметъра има по-широк диапазон от човекоподобен изход от модел с 7 милиарда параметъра. Инструкционно настройване: RLHF и конституционните методи учат моделите да избягват повтарящите се, предпазливите, безличностни образци, които правеха GPT-3 лесен за разпознаване. Температура и вземане на проби: чат интерфейсите са се преместили към ядрено вземане на проби и случайност, което разбива някои от нискодисперсионните образци, използвани като котви от класическите детектори.

GPT-5, Claude 4.5 и Gemini 2.5 са всички забележимо по-трудни за разпознаване от предшествениците си. Нашето вътрешно валидиране потвърждава това: всяко поколение модели понижава нашия AUC за това семейство с 5–10 процентни точки в сравнение с предишното поколение. Вижте нашия тест за точност за числа по модели.

Хуманизаторни инструменти — Undetectable AI, StealthWriter, Humanbeing и нарастващ списък — са явните противници. Те вземат AI изхода и го перефразират, пренаписват или прехвърлят стила му специално за да победят детекторите. Обучени са срещу публични детектори (включително нашия, въпреки че никога не споделяме теглата на модела си) и стават измеримо по-добри с всяка актуализация.

Какво прави щитът — разпознаването реагира

Детекторите имат три отговора на надпреварата при генерирането. Ансамблиране: комбиниране на множество сигнали за разпознаване, така че никоя единична тактика за избягване да не е достатъчна. Нашият ансамбъл от Binoculars с нулев изстрел с надзиран ModernBERT използва това: хуманизатор, който победи единия компонент, често се проваля срещу другия, а ансамблевият резултат улавя и двата.

Непрекъснато преобучаване: добавяме образци от всяко голямо ново издание на генератор в рамките на 4 седмици от пускането. Ако GPT-6 излезе утре, нашият корпус за обучение ще го включи до средата на следващия месец. Това е скъпо — изчислителна мощ, анотация, преваладиране — но е единственият начин да поддържаме разпознаването актуално. Детекторите, които преобучават ежегодно или по-рядко, са ефективно музейни предмети в рамките на година.

Противниково обучение: умишлено обучаваме с хуманизирани AI образци и перефразирани изходи, като учим модела да вижда отвъд прехвърлянето на стил на повърхностно ниво. Това повишава минималното, което хуманизаторът трябва да направи, за да ни избегне, което от своя страна забавя надпреварата.

Вътре в пейзажа на избягването

Как всъщност работят хуманизаторните инструменти? Три широки категории. Перефразиране: пренаписване на текста дума по дума или изречение по изречение с помощта на вторичен LLM. Ефективно срещу наивни детектори, разчитащи на точни последователности от токени; умерено ефективно срещу статистически методи. Прехвърляне на стил: трансформиране на текста, за да имитира конкретен автор или регистър. По-ефективно — AUC на нашия детектор пада с ~8 точки при AI текст с прехвърлен стил.

Хибридно редактиране от човек и AI: авторът пише чернова, прекарва я през LLM за полиране, след което ръчно редактира полираната версия. Това е най-трудният случай — законно съвместна работа, която смесва сигнали от хора и машини на ниво изречение. Никой детектор, включително нашият, не може надеждно да разреши тези случаи без метаданни за историята на редактиране, до които детекторът няма достъп.

Полезен мисловен модел: хуманизаторът не е пробив в детектора, а е множител на разходите за заобикалящия. Отнема време, понякога пари и винаги добавя риск от въвеждане на грешки. Повечето опити за академска измама не използват хуманизатори, защото триенето надвишава ползата. Където хуманизаторите доминират, е в хранилищата за съдържание и AI-генерираното SEO спам — случаи на употреба, при които производителността е важна и контролът на качеството е слаб.

Вижте как нашият детектор оценява точно сега

Поставете произволен документ и наблюдавайте решението по изречение в реално време. Ансамблевата логика, описана по-горе, работи върху вашия текст за по-малко от 30 секунди.

Защо ансамблирането е по-важно от всяка единична метрика

Детектор с единичен сигнал има единичен режим на грешка. Ако разчитате само на недоумение, перефразиран изход с променени вероятности на токени ви побеждава. Ако разчитате само на надзиран класификатор, текст извън разпределението (ново семейство модели, нова писмена область) ви побеждава. Ансамблът осреднява слабостите: перефразирането, което побеждава недоумението, вероятно все пак задейства надзираната глава и обратно.

Нашият производствен детектор е изрично ансамблов: 35% Binoculars (нулев изстрел, независим от модела, устойчив на извън разпределение) + 65% ModernBERT (надзиран, специфичен за областта, висока прецизност при текстове от разпределението). Теглата бяха избрани емпирично — ансамблевият AUC беше максимизиран, когато ModernBERT доминираше, но Binoculars запазваше правото на вето при гранични случаи.

Последствието: хуманизаторен инструмент сега трябва да победи едновременно две съществено различни архитектури на разпознаване, за да избегне нашето решение. Публичните хуманизатори обикновено са обучени срещу единичен целеви детектор, което означава, че често успяват срещу конкретния детектор, но се провалят срещу ансамбъл. Това е основното структурно предимство на разпознаването в настоящата надпревара.

Реалистични очаквания за следващите 12 месеца

Какво можем да очакваме до 2026–2027 г.? GPT-6 и Claude 5 са вероятно издания в средата на годината; и двата допълнително ще стеснят разликата. Модели с отворени тегла — Llama 4, Qwen 4 — ще продължат да правят достъпно висококачественото генериране и ще правят хуманизаторите по-евтини за изпълнение в мащаб. AUC на разпознаване на frontier модели вероятно ще спадне в диапазона 0,80–0,90 за първата година след пускането, преди преобучаването да го коригира.

От страна на защитата: мултимодалните сигнали (динамика на писане, история на редактиране, верификация на авторство срещу известен корпус) вероятно ще имат по-голямо значение от чисто текстовото разпознаване в рамките на 24 месеца. Нашият само-текстов детектор ще остане първият филтър, но все повече ще бъде гласуващ член в по-богат стек от доказателства.

Честото заключение: чисто текстовото разпознаване никога няма да достигне 100%. Ще достигне плато около 90–95% AUC при текстове от разпределението и 75–85% при frontier модели. Ако работният ви поток изисква сигурност, трябват ви доказателства отвъд резултата. Ако работният ви поток изисква силен сигнал за приоритизиране на преглед от хора, текстовото разпознаване остава полезно и измеримо по-добро от бездействието.

Често задавани въпроси

Ако AI разпознаването никога няма да е перфектно, струва ли си изобщо да се използва?

Да — въпросът не е ‘перфектно ли е’, а ‘по-добро ли е от изобщо да не се прави скрининг.’ Детектор с AUC 90% при вашия работен поток е огромно подобрение в съотношението сигнал-шум. Хората, най-гласовити за ограниченията на детекторите, са честoнеговите, чийто бизнес модел зависи от преодоляването им; това не е аргумент за изоставяне на инструмента.

Може ли воден знак да замени статистическото разпознаване?

Воденият знак вгражда скрит статистически подпис в генерирания текст, който детекторът може по-късно да извлече. Работи, когато генераторите сътрудничат (OpenAI го е внедрил експериментално), но напълно се проваля при модели с отворени тегла, които генерират без водни знаци. Статистическото разпознаване ще остане необходимо за обозримо бъдеще, защото работи дори когато генераторът отказва да сътрудничи.

Какво е единственото най-трудно нещо за разпознаване днес?

Хибридното редактиране от хора и AI — текстов фрагмент, изготвен от AI и полиран от хора на ниво изречение. Никой съществуващ детектор не може надеждно да разреши тези случаи без достъп до метаданни от историята на редактиране. Ако това е вашият случай на употреба, текстовото разпознаване е грешният инструмент — нуждаете се от инструментиране на работния поток.

Колко често ново издание на генератор действително намалява вашия AUC?

Всяко голямо издание, приблизително на всеки 3–6 месеца, намалява AUC за това семейство с 5–10 процентни точки, докато не преобучим. Преобучаването отнема около 4 седмици, след като разполагаме с достатъчно образци. Практическият резултат: винаги има 2–8 седмичен прозорец след ново пускане, при което нашият AUC за това семейство е под средния. Разкриваме тези пропуски на страницата с тестове.

Помага ли ансамблирането срещу хуманизатори?

Значително — това е основната структурна защита, с която разполагаме. Хуманизаторите се обучават срещу целеви детектор. Когато целта е ансамбъл от два архитектурно различни детектора, хуманизаторът трябва да победи и двата едновременно, което е значимо по-трудно от победата на всеки поотделно. Ето защо използваме ансамбъл в продукция, дори когато единичен компонент би бил по-евтин за изпълнение.

Тази статия описва структурни свойства на AI разпознаването на текст. Конкретните числа се отнасят до нашето вътрешно валидиране и може да не се обобщят. Актуализираме тази страница, когато новите изследвания и изданията на генератори налагат това.