Zverejňujeme skutočnú presnosť nášho detektora AI voči 22 generatívnym modelom vrátane GPT-5, Claude 4, Gemini 2 a Llama 3. Tabuľky pre každý model, poctivé obmedzenia a stiahnuteľná sada dát pre výskumníkov.
Väčšina nástrojov na detekciu AI vás žiada, aby ste dôverovali jednému nepriehľadnému skóre. My si myslíme, že si zaslúžite dôkazy. Na tejto stránke zdieľame úplné výsledky nášho interného validačného behu — každý generátor, ktorý sme testovali, skóre AUC-ROC pre každý z nich, typy esejí, ktoré nám robili najviac problémov, a rozhodovacie prahy, ktoré používame v produkcii.
Táto úroveň transparentnosti je v oblasti detekcie AI nezvyčajná. Väčšina konkurentov — predajcovia nástrojov na kontrolu plagiátov, špecializované detekčné služby AI, generické SaaS nástroje — nezverejňuje žiadne údaje o presnosti alebo uvádza jediné špeciálne vybrané číslo. Tento vzorec je neudržateľný: pedagógovia, vydavatelia a výskumníci potrebujú reprodukovateľné benchmarky skôr, ako môžu na akýkoľvek nástroj spoľahnúť.
Naše čísla pochádzajú z validačného rozdelenia 1 000 vzoriek kalibračného korpusu použitého na trénovanie nášho detektora ModernBERT. Rovnaká metodológia, ktorá poháňa tento benchmark, beží na každom dokumente, ktorý odošlete prostredníctvom nášho nástroja. Nič sa nedržiava späť pre ukážky.
Validačná sada obsahuje 1 000 esejí zo 1 200-vzorkovej kalibračnej množiny: 600 ľudsky napísaných esejí (zo spoločnej úlohy PAN25 a súboru argumentačných esejí PERSUADE) a 600 esejí generovaných AI (vytvorených 22 odlišnými veľkými jazykovými modelmi v riadenom prostredí výziev). Rozdelenie 80/20 na trénovaciu a validačnú časť je pevné a opakovateľné.
Každá vzorka je hodnotená samostatne, bez prístupu k metadátam, ktoré by mohli prezradiť skutočnú triedu. Detektor vracia pravdepodobnosť v rozsahu [0, 100] predstavujúcu pravdepodobnosť, že vzorka je generovaná AI. Potom vypočítame plochu pod krivkou prijímača-operátora (AUC-ROC) pre každý generátor a na úrovni typu eseje.
Všetky prahy, trénovacie hyperparametre a výstupy surovej pravdepodobnosti sú zaznamenané. Samotný súbor dát je dostupný na stiahnutie na konci tejto stránky — formát CSV, jeden riadok na vzorku, s identitou generátora, označením typu eseje, surovým skóre a konečným binárnym verdiktom.
Naprieč celou sadou 1 000 vzoriek dosahuje náš súbor detektorov AUC-ROC [AUC: 0.9884]. Pri rozhodovacom prahu 50 %, ktorý používame v produkcii: 0 falošne pozitívnych výsledkov na ľudských esejách vo validačnej sade a 60 % citlivosť na esejách AI. Pri prahoch optimálnych pre F1 na úrovni 26,56 % stúpa citlivosť na 90 % za cenu 2 % falošne pozitívnych výsledkov — kompromis vhodnejší pre pracovné toky s vysokou citlivosťou.
Verdikt na úrovni dokumentu v našom verejnom nástroji používa konzervatívny prah 50 %, uprednostňujúci nulové falošne pozitívne výsledky pred maximálnou citlivosťou. Učitelia, vydavatelia a výskumníci môžu toto nastavenie zmeniť pomocou posúvača citlivosti vo widgete, keď chcú agresívnejšie označovanie.
Na porovnanie, zložka Binoculars s nulovým záberom (nastavenie 2× Llama-3.1-8B) sama o sebe dosahuje AUC [AUC: 0.8509] samostatne. Zložka doladenom ModernBERT sama o sebe dosahuje [AUC: 1.0000] na esejách z distribúcie a [AUC: 0.9069] na texte mimo distribúcie. Súbor detektorov je medzi nimi na ľubovoľnej jednej osi, ale outperformuje oba v priemere, pretože opravuje ich komplementárne slabiny.
Tu je tabuľka AUC-ROC pre každý model. Modely sú zoradené od najľahšie po najťažšie detekovateľné na našej validačnej sade. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI modely: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Ostatní: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Hlavný vzorec: novšie, väčšie, inštrukčne doladené modely majú tendenciu produkovať text, ktorý akémukoľvek štatistickému detektoru vrátane nášho vyzerá ľudskejšie. Claude 4.5 Sonnet a GPT-5.x sú dve rodiny, kde sa naše rozdelenie skóre najväčšmi prekrýva s ľudskou základnou líniou. Toto zodpovedá každej nezávislej štúdii zverejnenej v roku 2025 — preteky v zbrojení sú skutočné a veľkosť modelu je priamou záťažou pre detekciu.
Nie všetky texty sú rovnako detekovateľné. Výsledky rozdeľujeme podľa typu eseje — každá kategória výziev PERSUADE — a rozdiel medzi najlepším a najhorším je výrazný. [PER-TYPE TABLE]
Argumentačné, presviedčacie a výkladové eseje: najsilnejšia doména detektora. AUC typicky 0,97–1,00, pretože trénovacie korpusy tieto štýly nadreprezentujú. Sem patrí väčšina prípadov akademickej integrity.
Tvorivé písanie a literárna analýza: naša najslabšia doména. Pre literárnu analýzu klesá AUC na 0,69 — ľudský štýl v beletrii sa zbližuje s výstupmi LLM a ani naša dozorovaná, ani zero-shot zložka ich nedokáže spoľahlivo rozlíšiť. K vysokému skóre AI na beletrii pristupujte so skepsou.
Vložte ľubovoľný dokument a pozrite si rovnaký verdikt pre každú vetu a rozhodovacie prahy, ktoré používame pre tieto benchmarkové čísla. Zadarmo, bez registrácie.
Tri triedy textu unikajú nášmu detektoru častejšie, ako naznačuje naša validačná sada. Humanizovaný text AI — výstup prevedený cez nástroj na adversariálne preformulovanie alebo prenos štýlu — sa často hodnotí ako ľudský, aj keď bol podkladový text plne vygenerovaný. Krátky text (pod 100 slov) je celkovo ťažko klasifikovateľný, pretože chýba dostatočný štatistický signál. Texty písané v angličtine ako cudzom jazyku môžu byť hodnotené ako AI-generované, pretože LLM a ESL pisatelia zdieľajú určité lexikálne a syntaktické preferencie.
Náš detektor je pravdepodobnostný, nie dôkazový. Vysoké skóre AI je signálom na ďalšie preskúmanie, nie dôkazom pochybenia. Dôrazne odporúčame doplniť skóre kontextom: nedávna história úprav, verzie konceptov, vzorky písania od toho istého autora a — kde je to povolené — krátka následná konverzácia s autorom.
Nepretržite pretrénujeme na výstupoch najnovších generátorov, ale vždy existuje omeškanie: model vydaný minulý týždeň nemusí byť dobre zastúpený v trénovacích dátach. Ak váš pracovný tok závisí od zachytenia najnovších modelov, kontrolujte našu stránku s benchmarkami štvrťročne pre aktualizované čísla.
Zverejňujeme surové validačné výsledky, aby ich výskumníci, novinári a pedagógovia mohli nezávisle overiť. CSV obsahuje: ID vzorky, identitu generátora (alebo 'human'), označenie typu eseje, výstup surovej pravdepodobnosti, binárny verdikt pri prahu 50 %, binárny verdikt pri prahu 26,56 %.
Stiahnuť: ai-detector-benchmark-2026-04.csv (aktualizované štvrťročne). Akademické použitie je neobmedzené; komerčné opätovné zverejnenie vyžaduje uvedenie zdroja: “Detektor plagiátov — AI Detection Benchmark 2026-04”.
Pre interaktívnu verziu rovnakej metodológie na vašom vlastnom texte vyskúšajte náš nástroj Kontrola AI & plagiátov — vložte ľubovoľný dokument a pozrite si verdikt pre každú vetu, rovnaké rozhodovacie prahy a rovnaký interval spoľahlivosti, ktoré používame pre tieto zverejnené čísla.
Výsledky benchmarku sú odvodené z našej internej validačnej sady a nemusia sa zovšeobecniť na text mimo distribúcie. Zverejnené čísla predstavujú priemerný výkon na 1 000 vzorkách; váš dokument sa môže hodnotiť inak. Výsledky detekcie AI používajte ako jeden vstup z mnohých, nie ako jediný dôkaz autorstva.