Idi na vrh
Dom Zašto je otkrivanje AI teksta teško: utrka u naoružanju između napada i obrane | Detektor plagijata

Zašto je otkrivanje AI teksta teško: unutar utrke u naoružanju

Detekcija i generacija su zarobljene u utrci mačke i miša. Svako novo izdanje modela zatvara statistički jaz na koji se detektori oslanjaju — a svako poboljšanje detekcije odgovoreno je novim alatom za humanizaciju. Evo što se zapravo događa ispod haube.

2026-04-17 · Plagiarism Detector Team

Statistička osnova detekcije

Svaki AI detektor teksta je u krajnjoj liniji statistički diskriminator — gleda na značajke teksta (vjerojatnosti tokena, perpleksnost, dinamičnost, sintaktičku pravilnost) i pokušava pronaći signale koji razlikuju sadržaj generiran od strane strojeva od sadržaja napisanog od strane ljudi. Metoda Binoculars (ICML 2024) koristi omjer unakrsne perpleksnosti između dva jezična modela kao signal. Nadgledani pristup ModernBERT uči signal izravno iz označenih primjera.

Oba pristupa dijele temeljnu ranjivost: signali na koje se oslanjaju su nuspojave načina na koji modeli generiraju tekst, a ne temeljne značajke pisanja od strane stroja. Kako se generatori poboljšavaju, te nuspojave se smanjuju. Model treniran da piše više kao čovjek bit će — po definiciji — teže otkriti.

Ovo nije neuspjeh istraživanja. To je strukturna činjenica o problemu. Detekcija djeluje na pomičnoj meti: svako veće izdanje LLM-a sužava jaz, svaki alat za humanizaciju eksplicitno trenira protiv izlaza detektora. Pitanje nije ‘možemo li postići 100% detekciju zauvijek’ — to nije moguće — nego ‘možemo li ostati ispred trenutne generacije dovoljno dugo da budemo korisni u praksi.’

Što mač radi — generacija se poboljšava

Tri trenda generacije otežavaju detekciju. Veličina: veći modeli produciraju statistički raznovrsniji tekst jer imaju bogatije unutarnje distribucije. Model s 70 milijardi parametara ima širi raspon izlaza sličnih ljudskom od onog s 7 milijardi parametara. Podešavanje na temelju uputa: RLHF i ustavne metode uče modele da izbjegavaju repetitivne, zaštitničke, bezbojne obrasce koji su GPT-3 učinili lako prepoznatljivim. Temperatura i uzorkovanje: chat sučelja su se pomakla prema nuklearnom uzorkovanju i nasumičnosti, što razbija neke od obrazaca niske varijance koje su klasični detektori koristili kao sidra.

GPT-5, Claude 4.5 i Gemini 2.5 su svi primjetno teže otkriti nego njihovi prethodnici. Naša interna validacija to potvrđuje: svaka generacija modela snižava naš AUC na toj obitelji za 5–10 postotnih bodova u usporedbi s prethodnom generacijom. Pogledajte naš benchmark točnosti za brojeve po modelu.

Alati za humanizaciju — Undetectable AI, StealthWriter, Humanbeing i rastuća lista — eksplicitni su protivnici. Uzimaju AI izlaz i parafraziraju ga, prepisuju ili prenose stil specifično kako bi porazili detektore. Trenirani su na javnim detektorima (uključujući naš, iako nikada ne dijelimo težine našeg modela) i s svakim ažuriranjem postaju mjerljivo bolji.

Što štit radi — detekcija odgovara

Detektori imaju tri odgovora na utrku u naoružanju generacije. Ensemble: kombiniranje višestrukih signala detekcije tako da nijedna pojedinačna taktika izbjegavanja nije dovoljna. Naš ensemble nultog pristupa Binoculars sa nadziranim ModernBERT-om iskorištava ovo: humanizator koji porazi jednu komponentu često ne uspijeva protiv druge, a ensemble ocjena obuhvata obje.

Kontinuirano pretreniranje: dodajemo uzorke iz svakog većeg novog izdanja generatora u roku od 4 tjedna od lansiranja. Ako GPT-6 izađe sutra, naš korpus za treniranje će ga sadržavati do sredine sljedećeg mjeseca. Ovo je skupo — računanje, anotacija, ponovna validacija — ali jedini je način da detekcija ostane aktualna. Detektori koji se pretreniraju godišnje ili rjeđe su u biti muzejski eksponati u roku od godinu dana.

Adversarijalno treniranje: namjerno treniramo na humaniziranim AI uzorcima i parafraziranim izlazima, učeći model da vidi dalje od površinskog prijenosa stila. To podiže dno onoga što humanizator mora učiniti da nas izbjegne, što zauzvrat usporava utrku u naoružanju.

Unutar krajolika izbjegavanja

Kako alati za humanizaciju zapravo funkcioniraju? Tri široke kategorije. Parafraziranje: prepisivanje teksta riječ po riječ ili rečenicu po rečenicu koristeći sekundarni LLM. Učinkovito protiv naivnih detektora koji se oslanjaju na točne sekvence tokena; umjereno učinkovito protiv statističkih metoda. Prijenos stila: transformacija teksta kako bi oponašao specifičnog autora ili registar. Učinkovitije — AUC našeg detektora pada za ~8 bodova na AI tekstu s prenesenim stilom.

Hibridno ljudsko-AI uređivanje: autor piše nacrt, prolazi ga kroz LLM radi poliranja, zatim ručno uređuje polirani tekst. Ovo je najteži slučaj — legitimno suradničko djelo koje miješa ljudske i strojne signale na razini rečenice. Nijedan detektor, uključujući naš, ne može pouzdano razriješiti ove slučajeve bez metapodataka o povijesti uređivanja koje detektor ne može vidjeti.

Korisni mentalni model: humanizator nije razbijač detektora, on je množitelj troška za onoga koji izbjegava. Zahtijeva vrijeme, ponekad novac i uvijek dodaje rizik uvođenja pogrešaka. Većina pokušaja akademskog varanja ne koristi humanizatore jer trenje nadmašuje korist. Tamo gdje humanizatori dominiraju je profesionalno uzgajanje sadržaja i AI generiran SEO spam — slučajevi gdje propusnost ima značaj, a kontrola kvalitete je slaba.

Pogledajte kako naš detektor ocjenjuje sada

Zalijepite bilo koji dokument i gledajte zaključak po rečenici u stvarnom vremenu. Ensemble logika opisana gore se izvodi na vašem tekstu za manje od 30 sekundi.

Zašto je ensemble važniji od bilo koje pojedinačne metrike

Detektor s jednim signalom ima jedan način kvara. Ako se oslanjate samo na perpleksnost, parafraza s izmijenjenim vjerojatnostima tokena vas pobjeđuje. Ako se oslanjate samo na nadziranog klasifikatora, tekst izvan distribucije (nova obitelj modela, nova pisana domena) vas pobjeđuje. Ensemble prosječuje slabosti: parafraza koja pobjeđuje perpleksnost vjerojatno i dalje aktivira nadgledanu glavu, i obrnuto.

Naš produkcijski detektor je eksplicitno ensemble: 35% Binoculars (nulti pristup, agnostičan prema modelu, robustan na tekst izvan distribucije) + 65% ModernBERT (nadziran, domenski specifičan, visoka preciznost na tekstu unutar distribucije). Težine su odabrane empirijski — AUC ensemble je bio maksimiziran kada je ModernBERT dominirao, ali Binoculars je zadržao pravo veta na rubnim slučajevima.

Posljedica: alat za humanizaciju sada mora istovremeno poraziti dvije suštinski različite arhitekture detekcije da bi izbjegao naš zaključak. Javni humanizatori su obično trenirani na jednom ciljanom detektoru, što znači da često uspijevaju protiv tog specifičnog detektora, ali ne uspijevaju protiv ensemble-a. To je primarna strukturna prednost detekcije u trenutnoj utrci u naoružanju.

Realna očekivanja za sljedećih 12 mjeseci

Što bismo trebali očekivati kroz 2026.–2027.? GPT-6 i Claude 5 su vjerojatna izdanja sredinom godine; oba će dalje sužavati jaz. Modeli otvorenih težina — Llama 4, Qwen 4 — nastavit će demokratizirati generiranje visoke kvalitete i učiniti humanizatore jeftinijima za pokretanje u velikom opsegu. AUC detekcije na frontier modelima vjerojatno će pasti u raspon 0,80–0,90 u prvoj godini nakon izdanja prije nego što se pretreniranje ispravi.

Na strani obrane: multimodalni signali (dinamika tipkanja, povijest uređivanja, provjera autorstva u usporedbi s poznatim korpusom) vjerojatno će u roku od 24 mjeseca biti važniji od čiste detekcije temeljene na tekstu. Naš detektor samo teksta ostat će prvi filter, ali sve više će biti glasujući član u bogatijim dokazima.

Pošteno zaključno stajalište: čista detekcija temeljena na tekstu nikada neće dosegnuti 100%. Platot će se negdje oko 90–95% AUC-a na tekstu unutar distribucije i 75–85% na frontier modelima. Ako vaš radni tok zahtijeva sigurnost, trebate dokaze koji nadilaze ocjenu. Ako vaš radni tok zahtijeva snažan signal za prioritizaciju ljudskog pregleda, detekcija temeljena na tekstu ostaje korisna i mjerljivo bolja od neradnja ničega.

Često postavljana pitanja

Ako otkrivanje AI teksta nikada neće biti savršeno, vrijedi li ga uopće koristiti?
Da — pitanje nije ‘je li savršeno’ nego ‘je li bolje od toga da uopće ne provjeravamo.’ Detektor s AUC-om 90% na vašem radnom opterećenju je masivno poboljšanje omjera signala i šuma. Oni koji su najglasniji u pogledu ograničenja detektora često su oni koji pokušavaju ih poraziti; to nije argument za napuštanje alata.
Može li vodeni žig zamijeniti statističku detekciju?
Vodeni žig ugrađuje skriveni statistički potpis u generirani tekst koji detektor može kasnije pronaći. Funkcionira kada generatori surađuju (OpenAI ga je eksperimentalno implementirao) ali potpuno propada na modelima otvorenih težina, koji generiraju bez vodenih žigova. Statistička detekcija ostat će neophodna u doglednoj budućnosti jer funkcionira čak i kada generator odbije surađivati.
Što je danas najteže otkriti?
Hibridno ljudsko-AI uređivanje — AI-nacrtani, od strane čovjeka polirani fragment teksta na razini rečenice. Nijedan trenutni detektor ne može pouzdano razriješiti ove slučajeve bez pristupa metapodacima o povijesti uređivanja. Ako je to vaš slučaj upotrebe, detekcija temeljena na tekstu nije pravi alat — trebate instrumentaciju radnog toka.
Koliko često novo izdanje generatora stvarno smanjuje vaš AUC?
Svako veće izdanje, otprilike svakih 3–6 mjeseci, smanjuje AUC na toj obitelji za 5–10 postotnih bodova dok se ne pretreniramo. Pretreniranje traje otprilike 4 tjedna nakon što imamo dovoljno uzoraka. Praktični rezultat: uvijek postoji prozor od 2–8 tjedana nakon novog lansiranja u kojem je naš AUC na toj obitelji niži od prosjeka. Te jaz otkrivamo na stranici benchmarka.
Pomaže li ensemble protiv humanizatora?
Znatno — to je primarna strukturna obrana koju imamo. Humanizatori treniraju na ciljanom detektoru. Kada je ta meta ensemble od dva arhitekturalno različita detektora, humanizator mora istovremeno poraziti oba, što je znatno teže od poraza bilo kojeg od njih posebno. Zato koristimo ensemble u produkciji čak i kada bi jedna komponenta bila jeftinija za pokretanje.

Ovaj članak opisuje strukturna svojstva otkrivanja AI teksta. Specifični brojevi odnose se na našu internu validaciju i možda se neće generalizirati. Ažuriramo ovu stranicu kako novi istraživački rezultati i izdanja generatora to zahtijevaju.