Közzétesszük AI-detektorunk valós pontosságát 22 generatív modellel szemben, köztük GPT-5, Claude 4, Gemini 2 és Llama 3. Modellenkénti táblázatok, őszinte korlátok és letölthető adatkészlet kutatóknak.
A legtöbb AI-felismerő eszköz arra kér, hogy bízzon meg egyetlen átláthatatlan pontszámban. Mi úgy gondoljuk, hogy bizonyítékokat érdemel. Ezen az oldalon megosztjuk belső validációs futtatásunk teljes eredményét — minden tesztelt generátort, az egyes AUC-ROC pontszámokat, az esszétípusokat, amelyek a legtöbb gondot okozták nekünk, és az éles környezetben alkalmazott döntési küszöbértékeket.
Ez az átláthatósági szint szokatlan az AI-felismerési területen. A legtöbb versenytárs — plágiumellenőrző szállítók, speciális AI-felismerési szolgáltatások, általános SaaS-eszközök — vagy semmilyen pontossági adatot nem tesz közzé, vagy egyetlen gondosan kiválasztott számot. Ez a minta tarthatatlan: oktatók, kiadók és kutatók reprodukálható benchmarkokat igényelnek, mielőtt bármilyen eszközre támaszkodhatnának.
Adataink a ModernBERT detektorunk betanításához használt kalibrációs korpusz 1 000 mintás validációs felosztásából származnak. Ugyanaz a módszertan, amely ezt a benchmarkot hajtja, minden, az eszközünkön keresztül benyújtott dokumentumon fut. Semmit sem tartunk vissza a demókhoz.
A validációs készlet 1 200 mintás kalibrációs korpuszból vett 1 000 esszét tartalmaz: 600 ember által írt esszét (a PAN25 shared-task adatokból és a PERSUADE argumentatív esszék adatkészletéből) és 600 AI által generált esszét (22 különálló nagy nyelvi modell által kontrollált utasítással készítve). A 80/20 tanítás-validáció felosztás rögzített és megismételhető.
Minden mintát önállóan pontozunk, metaadatokhoz való hozzáférés nélkül, amelyek kiszivárogtathatják az alapigazságot. A detektor [0, 100] valószínűséget ad vissza, amely azt jelzi, hogy a minta mennyire valószínűen AI által generált. Ezután kiszámítjuk a receiver-operating-characteristic görbe alatti területet (AUC-ROC) generátoronként és esszétípus szintjén.
Minden küszöbértéket, betanítási hiperparamétert és nyers valószínűségi kimenetet naplózunk. Az adatkészlet letölthető az oldal alján — CSV formátumban, mintánként egy sor, generátorazonosítóval, esszétípus-jellel, nyers pontszámmal és a végső bináris ítélettel.
A teljes 1 000 mintás készleten összesítő detektorunk eléri az AUC-ROC [AUC: 0.9884] értéket. Az éles környezetben alkalmazott 50%-os döntési küszöbnél: 0 hamis pozitív a validációs készlet emberi esszéin, és 60%-os visszahívás az AI-esszéken. A 26,56%-os F1-optimális küszöbnél a visszahívás 90%-ra emelkedik 2% hamis pozitív árán — ez a kompromisszum jobban illik a magas érzékenységű szűrési munkafolyamatokhoz.
A nyilvános eszközünkön a dokumentumszintű ítélet a konzervatív 50%-os küszöböt használja, a nulla hamis pozitívot részesítve előnyben a maximális visszahívással szemben. Tanárok, kiadók és kutatók felülírhatják ezt az érzékenységcsúszkán keresztül a widgetben, ha agresszívabb jelzést szeretnének.
Összehasonlításképpen: a Binoculars nulla lövés komponens egyedül (2× Llama-3.1-8B felállás) önállóan AUC [AUC: 0.8509] értéket ér el. A finomhangolt ModernBERT komponens egyedül [AUC: 1.0000] értéket ér el az eloszláson belüli esszéken és [AUC: 0.9069] értéket az eloszláson kívüli szövegen. Az összesítő bármely egyetlen tengelyen köztük helyezkedik el, de átlagosan mindkettőnél jobban teljesít, mert kijavítja egymást kiegészítő gyengeségeiket.
Íme a modellenkénti AUC-ROC táblázat. A modellek a legkönnyebben felismerhetőtől a legnehezebbig vannak rendezve a validációs készletünkön. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI modellek: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Egyéb: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
A főbb minta: az újabb, nagyobb, utasítással finomhangolt modellek statisztikailag emberibb szöveget produkálnak bármely statisztikai detektor számára, beleértve a miénket is. A Claude 4.5 Sonnet és GPT-5.x az a két modellcsalád, ahol a pontszámeloszlásaink a legjobban átfednek az emberi alapvonallal. Ez megfelel minden 2025-ben közzétett független tanulmánynak — a fegyverkezési verseny valós, és a modell mérete közvetlen ellenszél az észlelés számára.
Nem minden szöveg egyformán felismerhető. Az eredményeket esszétípusonként bontjuk le — minden PERSUADE-utasítás kategóriájára — és a legjobb és legrosszabb közötti rés széles. [PER-TYPE TABLE]
Argumentatív, meggyőző és kifejtő esszék: a detektor legerősebb területe. Az AUC jellemzően 0,97–1,00, mert a betanítási korpuszok felülreprezentálják ezeket a stílusokat. Ez az a terület, ahol a legtöbb tanulmányi integritási eset előfordul.
Kreatív írás és irodalmi elemzés: a leggyengébb területünk. A literary_analysis esetén az AUC 0,69-re esik — az emberi stílus a szépirodalomban konvergál az LLM-kimenetekkel, és sem a felügyelt, sem a nulla lövéses komponensünk nem tudja megbízhatóan megkülönböztetni őket. Az AI magas pontszámát szépirodalmon fenntartásokkal kezelje.
Illessze be bármelyik dokumentumot, és tekintse meg a benchmark számokhoz használt mondatonkénti ítéletet és döntési küszöbértékeket. Ingyenes, regisztráció nélkül.
A szöveg három osztálya kerüli el a detektorunkat gyakrabban, mint amennyit a validációs készletünk sugall. Humanizált AI-szöveg — adversariális parafrázis- vagy stílusátviteli eszközön átvezetett kimenet — gyakran emberként pontoz, még akkor is, ha az alapul szolgáló szöveg teljesen generált volt. Rövid szöveg (100 szó alatt) egyáltalán nehéz osztályozni, mert nincs elegendő statisztikai jel. Nem anyanyelvi angol írás AI által generáltként pontolható, mert az LLM-ek és az ESL-írók bizonyos lexikai és szintaktikai preferenciákat osztanak.
A detektorunk valószínűségi, nem bizonyító. A magas AI-pontszám egy jel a további vizsgálatra, nem a vétség bizonyítéka. Erősen ajánljuk, hogy a pontszámot kontextussal párosítsa: közelmúltbeli szerkesztési előzmény, verzióvázlatok, ugyanazon szerzőtől származó írásminták, és ahol megengedett, egy rövid utólagos beszélgetés a szerzővel.
Folyamatosan újratanítjuk a legújabb generátorkimeneteken, de mindig van egy késedelem: egy múlt héten kiadott modell lehet, hogy nincs jól reprezentálva a tanítási adatokban. Ha a munkafolyamata a legújabb modellek elfogásától függ, negyedévente ellenőrizze újra a benchmark oldalunkat a frissített adatokért.
Közzétesszük a nyers validációs eredményeket, hogy kutatók, újságírók és oktatók önállóan ellenőrizhessék az állításainkat. A CSV tartalmazza: minta azonosítója, generátorazonosító (vagy 'human'), esszétípus-jel, nyers valószínűségi kimenet, bináris ítélet 50%-os küszöbnél, bináris ítélet 26,56%-os küszöbnél.
Letöltés: ai-detector-benchmark-2026-04.csv (negyedévente frissítve). Tudományos felhasználás korlátlan; kereskedelmi újraközlés hivatkozást igényel: “Plágiumdetektor — AI Detection Benchmark 2026-04”.
Az azonos módszertan interaktív változatához saját szövegén próbálja ki az AI & Plágiumellenőrző eszközünket — illessze be bármelyik dokumentumot, és tekintse meg a mondatonkénti ítéletet, ugyanazokat a döntési küszöbértékeket és a közzétett számokhoz használt megbízhatósági intervallumot.
A benchmark eredmények a belső validációs készletünkből származnak, és előfordulhat, hogy nem általánosíthatók eloszláson kívüli szövegre. A közzétett számok 1 000 minta átlagos teljesítményét képviselik; a dokumentuma eltérően pontolható. Az AI-felismerési eredményeket sok bemenet egyikeként használja, nem kizárólagos bizonyítékként a szerzőségre.