Detekcija i generacija su zarobljene u utrci mačke i miša. Svako novo izdanje modela zatvara statistički jaz na koji se detektori oslanjaju — a svako poboljšanje detekcije odgovoreno je novim alatom za humanizaciju. Evo što se zapravo događa ispod haube.
Svaki AI detektor teksta je u krajnjoj liniji statistički diskriminator — gleda na značajke teksta (vjerojatnosti tokena, perpleksnost, dinamičnost, sintaktičku pravilnost) i pokušava pronaći signale koji razlikuju sadržaj generiran od strane strojeva od sadržaja napisanog od strane ljudi. Metoda Binoculars (ICML 2024) koristi omjer unakrsne perpleksnosti između dva jezična modela kao signal. Nadgledani pristup ModernBERT uči signal izravno iz označenih primjera.
Oba pristupa dijele temeljnu ranjivost: signali na koje se oslanjaju su nuspojave načina na koji modeli generiraju tekst, a ne temeljne značajke pisanja od strane stroja. Kako se generatori poboljšavaju, te nuspojave se smanjuju. Model treniran da piše više kao čovjek bit će — po definiciji — teže otkriti.
Ovo nije neuspjeh istraživanja. To je strukturna činjenica o problemu. Detekcija djeluje na pomičnoj meti: svako veće izdanje LLM-a sužava jaz, svaki alat za humanizaciju eksplicitno trenira protiv izlaza detektora. Pitanje nije ‘možemo li postići 100% detekciju zauvijek’ — to nije moguće — nego ‘možemo li ostati ispred trenutne generacije dovoljno dugo da budemo korisni u praksi.’
Tri trenda generacije otežavaju detekciju. Veličina: veći modeli produciraju statistički raznovrsniji tekst jer imaju bogatije unutarnje distribucije. Model s 70 milijardi parametara ima širi raspon izlaza sličnih ljudskom od onog s 7 milijardi parametara. Podešavanje na temelju uputa: RLHF i ustavne metode uče modele da izbjegavaju repetitivne, zaštitničke, bezbojne obrasce koji su GPT-3 učinili lako prepoznatljivim. Temperatura i uzorkovanje: chat sučelja su se pomakla prema nuklearnom uzorkovanju i nasumičnosti, što razbija neke od obrazaca niske varijance koje su klasični detektori koristili kao sidra.
GPT-5, Claude 4.5 i Gemini 2.5 su svi primjetno teže otkriti nego njihovi prethodnici. Naša interna validacija to potvrđuje: svaka generacija modela snižava naš AUC na toj obitelji za 5–10 postotnih bodova u usporedbi s prethodnom generacijom. Pogledajte naš benchmark točnosti za brojeve po modelu.
Alati za humanizaciju — Undetectable AI, StealthWriter, Humanbeing i rastuća lista — eksplicitni su protivnici. Uzimaju AI izlaz i parafraziraju ga, prepisuju ili prenose stil specifično kako bi porazili detektore. Trenirani su na javnim detektorima (uključujući naš, iako nikada ne dijelimo težine našeg modela) i s svakim ažuriranjem postaju mjerljivo bolji.
Detektori imaju tri odgovora na utrku u naoružanju generacije. Ensemble: kombiniranje višestrukih signala detekcije tako da nijedna pojedinačna taktika izbjegavanja nije dovoljna. Naš ensemble nultog pristupa Binoculars sa nadziranim ModernBERT-om iskorištava ovo: humanizator koji porazi jednu komponentu često ne uspijeva protiv druge, a ensemble ocjena obuhvata obje.
Kontinuirano pretreniranje: dodajemo uzorke iz svakog većeg novog izdanja generatora u roku od 4 tjedna od lansiranja. Ako GPT-6 izađe sutra, naš korpus za treniranje će ga sadržavati do sredine sljedećeg mjeseca. Ovo je skupo — računanje, anotacija, ponovna validacija — ali jedini je način da detekcija ostane aktualna. Detektori koji se pretreniraju godišnje ili rjeđe su u biti muzejski eksponati u roku od godinu dana.
Adversarijalno treniranje: namjerno treniramo na humaniziranim AI uzorcima i parafraziranim izlazima, učeći model da vidi dalje od površinskog prijenosa stila. To podiže dno onoga što humanizator mora učiniti da nas izbjegne, što zauzvrat usporava utrku u naoružanju.
Kako alati za humanizaciju zapravo funkcioniraju? Tri široke kategorije. Parafraziranje: prepisivanje teksta riječ po riječ ili rečenicu po rečenicu koristeći sekundarni LLM. Učinkovito protiv naivnih detektora koji se oslanjaju na točne sekvence tokena; umjereno učinkovito protiv statističkih metoda. Prijenos stila: transformacija teksta kako bi oponašao specifičnog autora ili registar. Učinkovitije — AUC našeg detektora pada za ~8 bodova na AI tekstu s prenesenim stilom.
Hibridno ljudsko-AI uređivanje: autor piše nacrt, prolazi ga kroz LLM radi poliranja, zatim ručno uređuje polirani tekst. Ovo je najteži slučaj — legitimno suradničko djelo koje miješa ljudske i strojne signale na razini rečenice. Nijedan detektor, uključujući naš, ne može pouzdano razriješiti ove slučajeve bez metapodataka o povijesti uređivanja koje detektor ne može vidjeti.
Korisni mentalni model: humanizator nije razbijač detektora, on je množitelj troška za onoga koji izbjegava. Zahtijeva vrijeme, ponekad novac i uvijek dodaje rizik uvođenja pogrešaka. Većina pokušaja akademskog varanja ne koristi humanizatore jer trenje nadmašuje korist. Tamo gdje humanizatori dominiraju je profesionalno uzgajanje sadržaja i AI generiran SEO spam — slučajevi gdje propusnost ima značaj, a kontrola kvalitete je slaba.
Zalijepite bilo koji dokument i gledajte zaključak po rečenici u stvarnom vremenu. Ensemble logika opisana gore se izvodi na vašem tekstu za manje od 30 sekundi.
Detektor s jednim signalom ima jedan način kvara. Ako se oslanjate samo na perpleksnost, parafraza s izmijenjenim vjerojatnostima tokena vas pobjeđuje. Ako se oslanjate samo na nadziranog klasifikatora, tekst izvan distribucije (nova obitelj modela, nova pisana domena) vas pobjeđuje. Ensemble prosječuje slabosti: parafraza koja pobjeđuje perpleksnost vjerojatno i dalje aktivira nadgledanu glavu, i obrnuto.
Naš produkcijski detektor je eksplicitno ensemble: 35% Binoculars (nulti pristup, agnostičan prema modelu, robustan na tekst izvan distribucije) + 65% ModernBERT (nadziran, domenski specifičan, visoka preciznost na tekstu unutar distribucije). Težine su odabrane empirijski — AUC ensemble je bio maksimiziran kada je ModernBERT dominirao, ali Binoculars je zadržao pravo veta na rubnim slučajevima.
Posljedica: alat za humanizaciju sada mora istovremeno poraziti dvije suštinski različite arhitekture detekcije da bi izbjegao naš zaključak. Javni humanizatori su obično trenirani na jednom ciljanom detektoru, što znači da često uspijevaju protiv tog specifičnog detektora, ali ne uspijevaju protiv ensemble-a. To je primarna strukturna prednost detekcije u trenutnoj utrci u naoružanju.
Što bismo trebali očekivati kroz 2026.–2027.? GPT-6 i Claude 5 su vjerojatna izdanja sredinom godine; oba će dalje sužavati jaz. Modeli otvorenih težina — Llama 4, Qwen 4 — nastavit će demokratizirati generiranje visoke kvalitete i učiniti humanizatore jeftinijima za pokretanje u velikom opsegu. AUC detekcije na frontier modelima vjerojatno će pasti u raspon 0,80–0,90 u prvoj godini nakon izdanja prije nego što se pretreniranje ispravi.
Na strani obrane: multimodalni signali (dinamika tipkanja, povijest uređivanja, provjera autorstva u usporedbi s poznatim korpusom) vjerojatno će u roku od 24 mjeseca biti važniji od čiste detekcije temeljene na tekstu. Naš detektor samo teksta ostat će prvi filter, ali sve više će biti glasujući član u bogatijim dokazima.
Pošteno zaključno stajalište: čista detekcija temeljena na tekstu nikada neće dosegnuti 100%. Platot će se negdje oko 90–95% AUC-a na tekstu unutar distribucije i 75–85% na frontier modelima. Ako vaš radni tok zahtijeva sigurnost, trebate dokaze koji nadilaze ocjenu. Ako vaš radni tok zahtijeva snažan signal za prioritizaciju ljudskog pregleda, detekcija temeljena na tekstu ostaje korisna i mjerljivo bolja od neradnja ničega.
Ovaj članak opisuje strukturna svojstva otkrivanja AI teksta. Specifični brojevi odnose se na našu internu validaciju i možda se neće generalizirati. Ažuriramo ovu stranicu kako novi istraživački rezultati i izdanja generatora to zahtijevaju.