Разпознаването и генерирането са заключени в надпревара котка-и-мишка. Всяко ново издание на модел затваря статистическата разлика, от която зависят детекторите — и всяко подобрение в разпознаването се отговаря с нов хуманизаторен инструмент. Ето какво всъщност се случва под капака.
Всеки AI детектор за текст е в крайна сметка статистически разграничител — той разглежда характеристики на текста (вероятности на токени, недоумение, буйност, синтактична редовност) и се опитва да намери сигнали, разграничаващи машинно генерираното от написаното от хора съдържание. Методът Binoculars (ICML 2024) използва съотношение на кръстосано недоумение между два езикови модела като свой сигнал. Надзираният подход ModernBERT научава сигнала директно от маркирани примери.
И двата подхода споделят фундаментална уязвимост: сигналите, на които разчитат, са странични ефекти от начина, по който моделите генерират текст, а не фундаментални характеристики на написаното от машини. С подобряването на генераторите тези странични ефекти намаляват. Модел, обучен да пише по-подобно на човек, ще бъде — по дефиниция — по-труден за разпознаване.
Това не е изследователски провал. Това е структурен факт за проблема. Разпознаването работи върху движеща се цел: всяко голямо издание на LLM затваря разликата, всеки хуманизаторен инструмент се обучава изрично срещу изходите на детектора. Въпросът не е ‘можем ли да постигнем 100% разпознаване завинаги’ — не може да се направи — а ‘можем ли да изпреварим настоящото поколение достатъчно дълго, за да бъдем полезни на практика.’
Три тенденции в генерирането правят разпознаването по-трудно. Размер: по-големите модели произвеждат статистически по-разнообразен текст, защото имат по-богати вътрешни разпределения. Модел с 70 милиарда параметъра има по-широк диапазон от човекоподобен изход от модел с 7 милиарда параметъра. Инструкционно настройване: RLHF и конституционните методи учат моделите да избягват повтарящите се, предпазливите, безличностни образци, които правеха GPT-3 лесен за разпознаване. Температура и вземане на проби: чат интерфейсите са се преместили към ядрено вземане на проби и случайност, което разбива някои от нискодисперсионните образци, използвани като котви от класическите детектори.
GPT-5, Claude 4.5 и Gemini 2.5 са всички забележимо по-трудни за разпознаване от предшествениците си. Нашето вътрешно валидиране потвърждава това: всяко поколение модели понижава нашия AUC за това семейство с 5–10 процентни точки в сравнение с предишното поколение. Вижте нашия тест за точност за числа по модели.
Хуманизаторни инструменти — Undetectable AI, StealthWriter, Humanbeing и нарастващ списък — са явните противници. Те вземат AI изхода и го перефразират, пренаписват или прехвърлят стила му специално за да победят детекторите. Обучени са срещу публични детектори (включително нашия, въпреки че никога не споделяме теглата на модела си) и стават измеримо по-добри с всяка актуализация.
Детекторите имат три отговора на надпреварата при генерирането. Ансамблиране: комбиниране на множество сигнали за разпознаване, така че никоя единична тактика за избягване да не е достатъчна. Нашият ансамбъл от Binoculars с нулев изстрел с надзиран ModernBERT използва това: хуманизатор, който победи единия компонент, често се проваля срещу другия, а ансамблевият резултат улавя и двата.
Непрекъснато преобучаване: добавяме образци от всяко голямо ново издание на генератор в рамките на 4 седмици от пускането. Ако GPT-6 излезе утре, нашият корпус за обучение ще го включи до средата на следващия месец. Това е скъпо — изчислителна мощ, анотация, преваладиране — но е единственият начин да поддържаме разпознаването актуално. Детекторите, които преобучават ежегодно или по-рядко, са ефективно музейни предмети в рамките на година.
Противниково обучение: умишлено обучаваме с хуманизирани AI образци и перефразирани изходи, като учим модела да вижда отвъд прехвърлянето на стил на повърхностно ниво. Това повишава минималното, което хуманизаторът трябва да направи, за да ни избегне, което от своя страна забавя надпреварата.
Как всъщност работят хуманизаторните инструменти? Три широки категории. Перефразиране: пренаписване на текста дума по дума или изречение по изречение с помощта на вторичен LLM. Ефективно срещу наивни детектори, разчитащи на точни последователности от токени; умерено ефективно срещу статистически методи. Прехвърляне на стил: трансформиране на текста, за да имитира конкретен автор или регистър. По-ефективно — AUC на нашия детектор пада с ~8 точки при AI текст с прехвърлен стил.
Хибридно редактиране от човек и AI: авторът пише чернова, прекарва я през LLM за полиране, след което ръчно редактира полираната версия. Това е най-трудният случай — законно съвместна работа, която смесва сигнали от хора и машини на ниво изречение. Никой детектор, включително нашият, не може надеждно да разреши тези случаи без метаданни за историята на редактиране, до които детекторът няма достъп.
Полезен мисловен модел: хуманизаторът не е пробив в детектора, а е множител на разходите за заобикалящия. Отнема време, понякога пари и винаги добавя риск от въвеждане на грешки. Повечето опити за академска измама не използват хуманизатори, защото триенето надвишава ползата. Където хуманизаторите доминират, е в хранилищата за съдържание и AI-генерираното SEO спам — случаи на употреба, при които производителността е важна и контролът на качеството е слаб.
Поставете произволен документ и наблюдавайте решението по изречение в реално време. Ансамблевата логика, описана по-горе, работи върху вашия текст за по-малко от 30 секунди.
Детектор с единичен сигнал има единичен режим на грешка. Ако разчитате само на недоумение, перефразиран изход с променени вероятности на токени ви побеждава. Ако разчитате само на надзиран класификатор, текст извън разпределението (ново семейство модели, нова писмена область) ви побеждава. Ансамблът осреднява слабостите: перефразирането, което побеждава недоумението, вероятно все пак задейства надзираната глава и обратно.
Нашият производствен детектор е изрично ансамблов: 35% Binoculars (нулев изстрел, независим от модела, устойчив на извън разпределение) + 65% ModernBERT (надзиран, специфичен за областта, висока прецизност при текстове от разпределението). Теглата бяха избрани емпирично — ансамблевият AUC беше максимизиран, когато ModernBERT доминираше, но Binoculars запазваше правото на вето при гранични случаи.
Последствието: хуманизаторен инструмент сега трябва да победи едновременно две съществено различни архитектури на разпознаване, за да избегне нашето решение. Публичните хуманизатори обикновено са обучени срещу единичен целеви детектор, което означава, че често успяват срещу конкретния детектор, но се провалят срещу ансамбъл. Това е основното структурно предимство на разпознаването в настоящата надпревара.
Какво можем да очакваме до 2026–2027 г.? GPT-6 и Claude 5 са вероятно издания в средата на годината; и двата допълнително ще стеснят разликата. Модели с отворени тегла — Llama 4, Qwen 4 — ще продължат да правят достъпно висококачественото генериране и ще правят хуманизаторите по-евтини за изпълнение в мащаб. AUC на разпознаване на frontier модели вероятно ще спадне в диапазона 0,80–0,90 за първата година след пускането, преди преобучаването да го коригира.
От страна на защитата: мултимодалните сигнали (динамика на писане, история на редактиране, верификация на авторство срещу известен корпус) вероятно ще имат по-голямо значение от чисто текстовото разпознаване в рамките на 24 месеца. Нашият само-текстов детектор ще остане първият филтър, но все повече ще бъде гласуващ член в по-богат стек от доказателства.
Честото заключение: чисто текстовото разпознаване никога няма да достигне 100%. Ще достигне плато около 90–95% AUC при текстове от разпределението и 75–85% при frontier модели. Ако работният ви поток изисква сигурност, трябват ви доказателства отвъд резултата. Ако работният ви поток изисква силен сигнал за приоритизиране на преглед от хора, текстовото разпознаване остава полезно и измеримо по-добро от бездействието.
Тази статия описва структурни свойства на AI разпознаването на текст. Конкретните числа се отнасят до нашето вътрешно валидиране и може да не се обобщят. Актуализираме тази страница, когато новите изследвания и изданията на генератори налагат това.