Nije sav AI tekst jednako prepoznatljiv. Evo rezultata našeg benchmarka po generatoru — koje obitelji modela naš detektor hvata gotovo savršenom točnošću, s kojima se bori i što to govori o odabiru radnog toka detekcije.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Poredano od najlakšeg do najtežeg za otkrivanje na našem validacijskom skupu. Raspon je širok — AUC na nekim obiteljima modela prelazi 0,99, dok drugi padaju u 0,80-te. Težina detekcije korelira s veličinom modela, sofisticiranošću podešavanja na temelju uputa i varijancijom izlaza.
Za punu metodologiju razrade po generatoru, pogledajte našu stranicu benchmarka točnosti. Ovaj članak sažima praktične implikacije tih podataka za korisnike koji biraju kojemu detektoru vjerovati i koji model koristiti.
GPT-3.5 je najlakši moderni model za otkrivanje — AUC [AUC: ?] na našem skupu. Legacyartefakti generacije (ponavljanje, zaštitne formulacije, bezbojni registar) ostaju jasno prisutni. GPT-4 pada na AUC [AUC: ?], GPT-4o na [AUC: ?], odražavajući progresivno bolju kalibraciju. GPT-5.x je najteži od te obitelji — AUC [AUC: ?] — jer je tim za podešavanje na temelju uputa eksplicitno ciljao uklanjanje artefakata detekcije.
Praktična implikacija: akademski radni tokovi zabrinuti za varanje u eri GPT-3.5 mogu se u velikoj mjeri osloniti samo na detekciju. Radni tokovi zabrinuti za GPT-5 trebaju kombinirati detekciju s kontekstualnim dokazima, kao što je opisano u našem vodiču za radni tok učitelja.
Postavke temperature su važne. Izlazi niske temperature (t≤0,5) lakše se otkrivaju jer koncentriraju masu vjerojatnosti na uži vokabular. Većina chat sučelja zadano koristi t≈0,7, stavljajući tekst u umjereno prepoznatljiv raspon. Adversarijalni korisnici eksplicitno povećavaju temperaturu ili koriste raznovrsno dekodiranje kako bi proširili raspon i izbjegli detekciju — naš ensemble to djelomično ispravlja, ali ne u potpunosti.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Obitelj Claude dosljedno producira manje repetitivni, stilski raznovrsniji tekst od GPT modela iste generacije, što ga čini težim za otkrivanje statističkim metodama.
Claudeovo ustavno AI treniranje specifično cilja “strojne znakove” na koje naš nadgledani klasifikator uči — obrasce oklijevanja, prekomjernu upotrebu specifičnih veznika, predvidljivu strukturu paragrafa. Ovo je izravna adversarijalna veza: generator je treniran protiv značajki na koje se detektor oslanja.
Claude 4.5 Sonnet i GPT-5.x su slični po težini. Njihove raspodjele ocjena najviše se preklapaju s ljudskom bazom u našim validacijskim podacima. Ako vaš radni tok cilja oba ova modela, očekujte smanjeni odziv na zadanom pragu i razmislite o snižavanju na F1-optimalni za pretraživanje visoke osjetljivosti.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini je pokazao najvarijabilniju izvedbu detekcije kroz verzije — neka međuverzijska izdanja su privremeno regresirala prije nego što su poboljšanja stigla.
Geminievo multimodalno treniranje znači da izlazi samo teksta ponekad nose vestigijalne obrasce iz domena opisa slika ili objašnjenja koda. Naš detektor to prepoznaje, što objašnjava nešto veću prepoznatljivost Geminija na promptima mješovite domene nego na čistoj prozi.
Za korisnike Google Workspacea čiji studenti ili zaposlenici koriste Gemini kroz Docs, signal detekcije je sličan sirovom API izlazu. Nismo primijetili obrasce izbjegavanja specifične za workspace integraciju koji se razlikuju od izravne upotrebe Gemini API-ja.
Zalijepite izlaz bilo kojeg LLM-a i pogledajte zaključak po rečenici. Naš detektor tretira sve 22 obitelji modela kao jednu ensemble provjeru.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Modeli otvorenih težina imaju širi raspon od zatvorenih — varijante fino podešene, kvantificirane deploymente i checkpointe modificirane od strane zajednice sve produciraju suptilno različite izlaze.
Detekcija na otvorenim težinama je strateški važna jer su alati za humanizaciju obično izgrađeni na modelima otvorenih težina — derivati Llame i Mistrala rade lokalno po niskoj cijeni, zbog čega usluge parafraziranja i prijenosa stila koriste njihove cijene. Ako je vaša briga humaniziran AI, u konačnici se branite od generacije obitelji Llame.
DeepSeek R1 i o3-mini (OpenAI model zaključivanja) zaslužuju poseban spomen. Oba produciraju tekst s artefaktima lanca zaključivanja — eksplicitna logika korak po korak vidljiva u izlazu — što naš detektor naučio prepoznati. Modeli zaključivanja trenutno su lakše otkriti od njihovih ekvivalenata temeljenih na chatu.
Ako birate model za pisanje i detekcija nije vaša briga, Claude 4.5 Sonnet i GPT-5 su najteže otkriti. Ako gradite radni tok detekcije, dajte prioritet modelima koje zapravo vidite: većina akademske zloupotrebe još uvijek radi na GPT-4/5 kroz besplatna sučelja; većina uzgajanja sadržaja radi na humanizatorima derivatima Llame.
Jedan detektor treniran na jednoj obitelji modela radit će najlošije na ostalima. Naš ensemble pristup trenira na uzorcima svih 22 generatora, što je razlog zašto AUC po modelu na teškim slučajevima (Claude 4.5, GPT-5) ostaje iznad 0,90, dok bi bilo koji detektor treniran na jednom modelu pao ispod 0,80.
Temeljni trend: težina detekcije raste brže od kadence izdavanja generatora. Svaki novi flagship je teže otkriti od prethodnog, pretreniranje zatvara jaz, ali ne u potpunosti. Očekujte da će osnova za 2026.–2027. biti niži AUC na frontier modelima i otprilike konstantan na legacymodelima.
AUC brojevi po modelu izvedeni su iz naše interne validacije i možda se neće generalizirati. Težina svakog modela mijenja se s vremenom kako se i generator i naš korpus za treniranje razvijaju. Trenutni podaci odražavaju benchmark pokretanje 2026-04.