Idi na vrh
Dom Koji AI je najteže otkriti? GPT vs Claude vs Gemini | Detektor plagijata

Koji AI je najteže otkriti? GPT vs Claude vs Gemini vs Llama

Nije sav AI tekst jednako prepoznatljiv. Evo rezultata našeg benchmarka po generatoru — koje obitelji modela naš detektor hvata gotovo savršenom točnošću, s kojima se bori i što to govori o odabiru radnog toka detekcije.

2026-04-17 · Plagiarism Detector Team

Kratki odgovor — rang-lista

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Poredano od najlakšeg do najtežeg za otkrivanje na našem validacijskom skupu. Raspon je širok — AUC na nekim obiteljima modela prelazi 0,99, dok drugi padaju u 0,80-te. Težina detekcije korelira s veličinom modela, sofisticiranošću podešavanja na temelju uputa i varijancijom izlaza.

Za punu metodologiju razrade po generatoru, pogledajte našu stranicu benchmarka točnosti. Ovaj članak sažima praktične implikacije tih podataka za korisnike koji biraju kojemu detektoru vjerovati i koji model koristiti.

OpenAI obitelj — GPT

GPT-3.5 je najlakši moderni model za otkrivanje — AUC [AUC: ?] na našem skupu. Legacyartefakti generacije (ponavljanje, zaštitne formulacije, bezbojni registar) ostaju jasno prisutni. GPT-4 pada na AUC [AUC: ?], GPT-4o na [AUC: ?], odražavajući progresivno bolju kalibraciju. GPT-5.x je najteži od te obitelji — AUC [AUC: ?] — jer je tim za podešavanje na temelju uputa eksplicitno ciljao uklanjanje artefakata detekcije.

Praktična implikacija: akademski radni tokovi zabrinuti za varanje u eri GPT-3.5 mogu se u velikoj mjeri osloniti samo na detekciju. Radni tokovi zabrinuti za GPT-5 trebaju kombinirati detekciju s kontekstualnim dokazima, kao što je opisano u našem vodiču za radni tok učitelja.

Postavke temperature su važne. Izlazi niske temperature (t≤0,5) lakše se otkrivaju jer koncentriraju masu vjerojatnosti na uži vokabular. Većina chat sučelja zadano koristi t≈0,7, stavljajući tekst u umjereno prepoznatljiv raspon. Adversarijalni korisnici eksplicitno povećavaju temperaturu ili koriste raznovrsno dekodiranje kako bi proširili raspon i izbjegli detekciju — naš ensemble to djelomično ispravlja, ali ne u potpunosti.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Obitelj Claude dosljedno producira manje repetitivni, stilski raznovrsniji tekst od GPT modela iste generacije, što ga čini težim za otkrivanje statističkim metodama.

Claudeovo ustavno AI treniranje specifično cilja “strojne znakove” na koje naš nadgledani klasifikator uči — obrasce oklijevanja, prekomjernu upotrebu specifičnih veznika, predvidljivu strukturu paragrafa. Ovo je izravna adversarijalna veza: generator je treniran protiv značajki na koje se detektor oslanja.

Claude 4.5 Sonnet i GPT-5.x su slični po težini. Njihove raspodjele ocjena najviše se preklapaju s ljudskom bazom u našim validacijskim podacima. Ako vaš radni tok cilja oba ova modela, očekujte smanjeni odziv na zadanom pragu i razmislite o snižavanju na F1-optimalni za pretraživanje visoke osjetljivosti.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini je pokazao najvarijabilniju izvedbu detekcije kroz verzije — neka međuverzijska izdanja su privremeno regresirala prije nego što su poboljšanja stigla.

Geminievo multimodalno treniranje znači da izlazi samo teksta ponekad nose vestigijalne obrasce iz domena opisa slika ili objašnjenja koda. Naš detektor to prepoznaje, što objašnjava nešto veću prepoznatljivost Geminija na promptima mješovite domene nego na čistoj prozi.

Za korisnike Google Workspacea čiji studenti ili zaposlenici koriste Gemini kroz Docs, signal detekcije je sličan sirovom API izlazu. Nismo primijetili obrasce izbjegavanja specifične za workspace integraciju koji se razlikuju od izravne upotrebe Gemini API-ja.

Provjerite uzorak s bilo kojeg modela

Zalijepite izlaz bilo kojeg LLM-a i pogledajte zaključak po rečenici. Naš detektor tretira sve 22 obitelji modela kao jednu ensemble provjeru.

Meta i modeli otvorenih težina

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Modeli otvorenih težina imaju širi raspon od zatvorenih — varijante fino podešene, kvantificirane deploymente i checkpointe modificirane od strane zajednice sve produciraju suptilno različite izlaze.

Detekcija na otvorenim težinama je strateški važna jer su alati za humanizaciju obično izgrađeni na modelima otvorenih težina — derivati Llame i Mistrala rade lokalno po niskoj cijeni, zbog čega usluge parafraziranja i prijenosa stila koriste njihove cijene. Ako je vaša briga humaniziran AI, u konačnici se branite od generacije obitelji Llame.

DeepSeek R1 i o3-mini (OpenAI model zaključivanja) zaslužuju poseban spomen. Oba produciraju tekst s artefaktima lanca zaključivanja — eksplicitna logika korak po korak vidljiva u izlazu — što naš detektor naučio prepoznati. Modeli zaključivanja trenutno su lakše otkriti od njihovih ekvivalenata temeljenih na chatu.

Što ove razlike znače za vas

Ako birate model za pisanje i detekcija nije vaša briga, Claude 4.5 Sonnet i GPT-5 su najteže otkriti. Ako gradite radni tok detekcije, dajte prioritet modelima koje zapravo vidite: većina akademske zloupotrebe još uvijek radi na GPT-4/5 kroz besplatna sučelja; većina uzgajanja sadržaja radi na humanizatorima derivatima Llame.

Jedan detektor treniran na jednoj obitelji modela radit će najlošije na ostalima. Naš ensemble pristup trenira na uzorcima svih 22 generatora, što je razlog zašto AUC po modelu na teškim slučajevima (Claude 4.5, GPT-5) ostaje iznad 0,90, dok bi bilo koji detektor treniran na jednom modelu pao ispod 0,80.

Temeljni trend: težina detekcije raste brže od kadence izdavanja generatora. Svaki novi flagship je teže otkriti od prethodnog, pretreniranje zatvara jaz, ali ne u potpunosti. Očekujte da će osnova za 2026.–2027. biti niži AUC na frontier modelima i otprilike konstantan na legacymodelima.

Često postavljana pitanja

Ako su neki modeli teže otkriti, trebam li se potpuno odreći detektora?
Ne — čak ni na najtežim obiteljima modela naš AUC je iznad 0,85, što je snažan signal. Pitanje je kako koristite signal. Za teško prepoznatljive modele, uparite ocjenu s potvrđujućim dokazima (povijest uređivanja, rad u učionici, razgovor sa studentom). Za lakše modele, sama ocjena je često dovoljna.
Koji model trebam koristiti ako želim izbjeći detekciju?
Na ovo pitanje ne odgovaramo izravno — mi vodimo alat za detekciju, a ne vodič za izbjegavanje. Ono što ćemo reći: prepoznatljivo-vs-neprepoznatljivo nije prava os za odabir modela. Kvaliteta, cijena i prikladnost su daleko važniji od težine detekcije. Ako pišete legitimno uz AI asistenciju, razotkrivanje i transparentni radni tok su važniji od skrivanja alata.
Imaju li varijante modela otvorenih težina različite profile detekcije?
Da, i to značajno. Zajednicom fino podešena varijanta Llame 3.3 trenirana za specifičan stil pisanja može producirati tekst koji se ocjenjuje drugačije od standardne Llame 3.3. Naš benchmark pokriva standardni checkpoint; prilagođena fino podešavanja mogu biti lakša (ako suzuju raspodjele izlaza) ili teža (ako eksplicitno adversarijalno treniraju na detekciji).
Kako temperatura i uzorkovanje utječu na prepoznatljivost?
Viša temperatura i raznovrsniji uzorkovanje obično smanjuju prepoznatljivost jer proširuju raspodjelu izlaza. Pohlepno dekodiranje na niskoj temperaturi najlakše je otkriti. Većina produkcijskih chat sučelja radi pri t≈0,7–1,0 s nuklearnim uzorkovanjem, što ih smješta u umjereno prepoznatljiv režim — naš ensemble slično se ponaša u zadanom rasponu.
Kada će GPT-6 ili Claude 5 doći i što bih trebao očekivati?
Sredinom 2026. je konsenzusna prognoza za oba. Očekujte da AUC detekcije na novim obiteljima padne u raspon 0,80–0,85 u prvih 4–8 tjedana nakon lansiranja dok prikupljamo uzorke i pretreniramo. Povijesne verzije sugeriraju potpuni oporavak u roku od 8–12 tjedana ako je model široko dostupan; dulje za rijetke ili modele s ograničenim pristupom.

AUC brojevi po modelu izvedeni su iz naše interne validacije i možda se neće generalizirati. Težina svakog modela mijenja se s vremenom kako se i generator i naš korpus za treniranje razvijaju. Trenutni podaci odražavaju benchmark pokretanje 2026-04.