Idi na vrh
Dom Koliko je točno otkrivanje AI teksta? Benchmark nad 22 LLM-a | Detektor plagijata

Koliko je točno otkrivanje AI teksta? Naš benchmark nad 22 LLM-a

Objavljujemo stvarnu točnost našeg AI detektora na 22 generativna modela, uključujući GPT-5, Claude 4, Gemini 2 i Llamu 3. Tablice po modelu, poštena ograničenja i skup podataka za preuzimanje namijenjen istraživačima.

2026-04-17 · Plagiarism Detector Team

Zašto objavljujemo naše rezultate točnosti

Većina alata za otkrivanje AI teksta traži od vas da vjerujete jednoj neprozirnoj ocjeni. Mislimo da zaslužujete dokaze. Na ovoj stranici dijelimo pune rezultate naše interne validacije — svaki generator koji smo testirali, AUC-ROC ocjenu za svaki od njih, vrste eseja koje su nam zadavale najviše problema i pragove odlučivanja koje koristimo u produkciji.

Ova razina transparentnosti neuobičajena je u prostoru otkrivanja AI teksta. Većina konkurenata — vendori alata za provjeru plagijata, specijalizirani servisi za otkrivanje AI, generički SaaS alati — objavljuje ili nikakve podatke o točnosti ili jednu selektivno odabranu brojku. Taj obrazac nije održiv: obrazovne ustanove, nakladnici i istraživači trebaju ponovljive benchmarke prije nego što se mogu osloniti na bilo koji alat.

Naši rezultati potječu iz validacijskog dijela od 1.000 uzoraka kalibracijske korpusa korištenog za treniranje našeg ModernBERT detektora. Ista metodologija koja pokreće ovaj benchmark primjenjuje se na svaki dokument koji pošaljete kroz naš alat. Ništa se ne čuva samo za demonstracije.

Testni korpus i metodologija

Validacijski skup sadrži 1.000 eseja izvučenih iz kalibracijske korpuse od 1.200 uzoraka: 600 eseja napisanih od strane ljudi (iz podataka PAN25 zadatka i skupa podataka PERSUADE argumentativnih eseja) i 600 eseja koje je generirala AI (produciranih od strane 22 različita velika jezična modela u kontroliranom okruženju). Podjela 80/20 za treniranje i validaciju je fiksna i ponovljiva.

Svaki uzorak se ocjenjuje izolirano, bez pristupa metapodacima koji bi mogli otkriti istinitu oznaku. Detektor vraća vjerojatnost u rasponu [0, 100] koja predstavlja vjerovatnoću da je uzorak generiran od strane AI. Zatim računamo površinu ispod krivulje primatelja-operatora (AUC-ROC) po generatoru i na razini vrste eseja.

Svi pragovi, hiperparametri treniranja i sirovi probabilistički izlazi se bilježe. Sam skup podataka dostupan je za preuzimanje na dnu ove stranice — u CSV formatu, jedan red po uzorku, s identitetom generatora, oznakom vrste eseja, sirovom ocjenom i konačnim binarnim zaključkom.

Ključni rezultati

Na punom skupu od 1.000 uzoraka, naš ensemble detektor postiže AUC-ROC [AUC: 0.9884]. Na pragu odlučivanja od 50% koji koristimo u produkciji: 0 lažno pozitivnih na ljudskim esejima u validacijskom skupu i 60% odziv na AI esejima. Na F1-optimalnom pragu od 26,56%, odziv raste na 90% uz cijenu od 2% lažno pozitivnih — kompromis koji je bolje prilagođen radnim tokovima visoke osjetljivosti.

Zaključak na razini dokumenta u našem javnom alatu koristi konzervativni prag od 50%, dajući prednost nultim lažno pozitivnim rezultatima nad maksimalnim odzivom. Učitelji, nakladnici i istraživači mogu to zaobići putem klizača osjetljivosti u widgetu kada žele agresivnije označavanje.

Za usporedbu, sama Binoculars zero-shot komponenta (postav 2× Llama-3.1-8B) samostalno postiže AUC [AUC: 0.8509]. Sama fino podešena ModernBERT komponenta postiže [AUC: 1.0000] na esejima unutar distribucije i [AUC: 0.9069] na tekstu izvan distribucije. Ensemble se nalazi između njih na svakoj pojedinoj osi, ali nadmašuje oba prosječno jer ispravlja njihove komplementarne slabosti.

Razrada po generatoru

Evo tablice AUC-ROC po modelu. Modeli su poredani od najlakšeg do najtežeg za otkrivanje na našem validacijskom skupu. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI modeli: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Ostali: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Ključni obrazac: noviji, veći modeli s podešavanjem na temelju uputa teže produciraju tekst koji statističkim detektorima, uključujući naš, izgleda više kao ljudski. Claude 4.5 Sonnet i GPT-5.x su dvije obitelji u kojima se naše raspodjele ocjena najviše preklapaju s ljudskom bazom. To se poklapa sa svakom neovisnom studijom objavljenom 2025. godine — utrka u naoružanju je stvarna i veličina modela izravno otežava detekciju.

Gdje detektor ima poteškoće

Nije sav tekst jednako prepoznatljiv. Razlažemo rezultate prema vrsti eseja — svakoj kategoriji prompta PERSUADE — a jaz između najboljeg i najlošijeg je velik. [PER-TYPE TABLE]

Argumentativni, uvjerljivi i izlagački eseji: najjača domena detektora. AUC je obično 0,97–1,00 jer korpusi za treniranje daju prednost tim stilovima. Tu spada većina slučajeva akademskog integriteta.

Kreativno pisanje i književna analiza: naša najslabija domena. Za literary_analysis AUC pada na 0,69 — ljudski stil u fikciji konvergira s izlazima LLM-a i ni naša nadzirana ni zero-shot komponenta ih ne mogu pouzdano razlikovati. Na visoku AI ocjenu za fikciju gledajte s oprezom.

Isprobajte detektor na vlastitom tekstu

Zalijepite bilo koji dokument i pogledajte isti zaključak po rečenici i pragove odlučivanja koje koristimo za ove benchmark brojeve. Besplatno, bez registracije.

Ograničenja i načini kvara

Tri klase teksta izmiču našem detektoru češće nego što to naš validacijski skup sugerira. Humaniziran AI tekst — izlaz prošao kroz adversarijalni alat za parafrazu ili prijenos stila — često se ocjenjuje kao ljudski čak i kada je osnovni tekst bio u potpunosti generiran. Kratki tekst (ispod 100 riječi) teško je uopće klasificirati jer nema dovoljno statističkog signala. Pisanje na engleskom kao stranom jeziku može se ocijeniti kao AI generiran jer LLM-ovi i pisci čiji materinski jezik nije engleski dijele određene leksičke i sintaktičke preferencije.

Naš detektor je probabilistički, a ne dokazni. Visoka AI ocjena je signal za daljnje istraživanje, a ne dokaz kršenja pravila. Snažno preporučujemo kombiniranje ocjene s kontekstom: nedavnom poviješću uređivanja, verzijama nacrta, uzorcima pisanja istog autora i — tamo gdje je dopušteno — kratkim naknadnim razgovorom s autorom.

Kontinuirano pretreniramo na najnovijim izlazima generatora, ali uvijek postoji kašnjenje: model objavljen prošlog tjedna možda nije dobro zastupljen u podacima za treniranje. Ako vaš radni tok ovisi o hvatanju najnovijih modela, ponovno provjerite našu stranicu benchmarka tromjesečno radi ažuriranih brojeva.

Preuzmite cijeli skup podataka

Objavljujemo sirove rezultate validacije kako bi istraživači, novinari i obrazovne ustanove mogli neovisno provjeriti naše tvrdnje. CSV sadrži: ID uzorka, identitet generatora (ili 'human'), oznaku vrste eseja, sirovi probabilistički izlaz, binarni zaključak na pragu 50%, binarni zaključak na pragu 26,56%.

Preuzimanje: ai-detector-benchmark-2026-04.csv (ažurira se tromjesečno). Akademska upotreba je neograničena; komercijalna ponovna objava zahtijeva atribuciju: “Detektor plagijata — AI Detection Benchmark 2026-04”.

Za interaktivnu verziju iste metodologije na vašem vlastitom tekstu, isprobajte naš alat AI & Provjera plagijata — zalijepite bilo koji dokument i pogledajte zaključak po rečenici, iste pragove odlučivanja i isti interval pouzdanosti koji koristimo za ove objavljene brojeve.

Često postavljana pitanja

Koliko se često ažurira ovaj benchmark?
Svaka tromjesečje. Kada se pokrene veći generator (GPT-6, Claude 5, Gemini 3), dodajemo ga u testni korpus u roku od 4 tjedna i ponovo objavljujemo ažuriranu tablicu. Povijesne verzije arhivirane su s datumskim nazivima datoteka — izdanje 2026-04 je trenutno stabilno izdanje.
Zašto ne objavljujete probabilističke izlaze po uzorku?
Objavljujemo — CSV za preuzimanje sadrži sirove vjerojatnosti. Ono što ne objavljujemo je originalni tekst eseja jer PAN25 korpus i PERSUADE skup podataka imaju ograničenja redistribucije. Ako želite tekst, preuzmite te skupove podataka izravno iz njihovog izvora (veze su u dokumentaciji CSV-a).
Mogu li vjerovati detektoru ako je AUC ispod 1,0?
Nijedan detektor ne postiže AUC 1,0 na svakom generatoru, pa pitanje nije ‘je li savršen’ nego ‘je li transparentan.’ Detektor koji objavljuje AUC 0,95 i govori vam gdje ima poteškoća pouzdaniji je od onog koji objavljuje ‘vodeću točnost u industriji’ bez brojke. Naš AUC [AUC: 0.9884] je poštena prosječna izvedba; razrade po generatoru i po vrsti eseja su ono na što trebate temeljiti svoju odluku o kupnji.
Je li vaš AI detektor spreman za akademsku objavu?
Osnovna metodologija jest — Binoculars (ICML 2024) i ModernBERT su oba arhitekture koje su prošle recenziju stručnjaka. Naš specifični korpus za fino podešavanje i pragovi su vlasnički, ali metodologija benchmarka je u potpunosti ponovljiva.
Kako se besplatni online alat uspoređuje s verzijom za stolna računala?
Isti motor, isti rezultati točnosti, ista logika zaključka po rečenici. Verzija za stolna računala dodaje neograničenu duljinu dokumenta, offline skeniranje, integrirano podudaranje plagijata s 4 milijarde web stranica i skupnu obradu čitavih mapa. Za jednokratne provjere online alat je dovoljan; za svakodnevne radne tokove, verzija za stolna računala je pravi izbor.

Rezultati benchmarka izvedeni su iz našeg internog validacijskog skupa i možda se neće generalizirati na tekst izvan distribucije. Objavljeni brojevi predstavljaju prosječnu izvedbu na 1.000 uzoraka; vaš dokument može se ocjenjivati drugačije. Koristite rezultate otkrivanja AI teksta kao jedan od ulaznih podataka, a ne kao jedini dokaz o autorstvu.