itthon › Mennyire pontos az AI-felismerés? Benchmark 22 LLM-en | Plágiumdetektor

Mennyire pontos az AI-felismerés? Benchmarkunk 22 LLM-en

Közzétesszük AI-detektorunk valós pontosságát 22 generatív modellel szemben, köztük GPT-5, Claude 4, Gemini 2 és Llama 3. Modellenkénti táblázatok, őszinte korlátok és letölthető adatkészlet kutatóknak.

2026-04-17 · Plagiarism Detector Team

Miért tesszük közzé a pontossági adatainkat

A legtöbb AI-felismerő eszköz arra kér, hogy bízzon meg egyetlen átláthatatlan pontszámban. Mi úgy gondoljuk, hogy bizonyítékokat érdemel. Ezen az oldalon megosztjuk belső validációs futtatásunk teljes eredményét — minden tesztelt generátort, az egyes AUC-ROC pontszámokat, az esszétípusokat, amelyek a legtöbb gondot okozták nekünk, és az éles környezetben alkalmazott döntési küszöbértékeket.

Ez az átláthatósági szint szokatlan az AI-felismerési területen. A legtöbb versenytárs — plágiumellenőrző szállítók, speciális AI-felismerési szolgáltatások, általános SaaS-eszközök — vagy semmilyen pontossági adatot nem tesz közzé, vagy egyetlen gondosan kiválasztott számot. Ez a minta tarthatatlan: oktatók, kiadók és kutatók reprodukálható benchmarkokat igényelnek, mielőtt bármilyen eszközre támaszkodhatnának.

Adataink a ModernBERT detektorunk betanításához használt kalibrációs korpusz 1 000 mintás validációs felosztásából származnak. Ugyanaz a módszertan, amely ezt a benchmarkot hajtja, minden, az eszközünkön keresztül benyújtott dokumentumon fut. Semmit sem tartunk vissza a demókhoz.

A tesztkészlet és a módszertan

A validációs készlet 1 200 mintás kalibrációs korpuszból vett 1 000 esszét tartalmaz: 600 ember által írt esszét (a PAN25 shared-task adatokból és a PERSUADE argumentatív esszék adatkészletéből) és 600 AI által generált esszét (22 különálló nagy nyelvi modell által kontrollált utasítással készítve). A 80/20 tanítás-validáció felosztás rögzített és megismételhető.

Minden mintát önállóan pontozunk, metaadatokhoz való hozzáférés nélkül, amelyek kiszivárogtathatják az alapigazságot. A detektor [0, 100] valószínűséget ad vissza, amely azt jelzi, hogy a minta mennyire valószínűen AI által generált. Ezután kiszámítjuk a receiver-operating-characteristic görbe alatti területet (AUC-ROC) generátoronként és esszétípus szintjén.

Minden küszöbértéket, betanítási hiperparamétert és nyers valószínűségi kimenetet naplózunk. Az adatkészlet letölthető az oldal alján — CSV formátumban, mintánként egy sor, generátorazonosítóval, esszétípus-jellel, nyers pontszámmal és a végső bináris ítélettel.

Főbb eredmények

A teljes 1 000 mintás készleten összesítő detektorunk eléri az AUC-ROC [AUC: 0.9884] értéket. Az éles környezetben alkalmazott 50%-os döntési küszöbnél: 0 hamis pozitív a validációs készlet emberi esszéin, és 60%-os visszahívás az AI-esszéken. A 26,56%-os F1-optimális küszöbnél a visszahívás 90%-ra emelkedik 2% hamis pozitív árán — ez a kompromisszum jobban illik a magas érzékenységű szűrési munkafolyamatokhoz.

A nyilvános eszközünkön a dokumentumszintű ítélet a konzervatív 50%-os küszöböt használja, a nulla hamis pozitívot részesítve előnyben a maximális visszahívással szemben. Tanárok, kiadók és kutatók felülírhatják ezt az érzékenységcsúszkán keresztül a widgetben, ha agresszívabb jelzést szeretnének.

Összehasonlításképpen: a Binoculars nulla lövés komponens egyedül (2× Llama-3.1-8B felállás) önállóan AUC [AUC: 0.8509] értéket ér el. A finomhangolt ModernBERT komponens egyedül [AUC: 1.0000] értéket ér el az eloszláson belüli esszéken és [AUC: 0.9069] értéket az eloszláson kívüli szövegen. Az összesítő bármely egyetlen tengelyen köztük helyezkedik el, de átlagosan mindkettőnél jobban teljesít, mert kijavítja egymást kiegészítő gyengeségeiket.

Generátorankénti bontás

Íme a modellenkénti AUC-ROC táblázat. A modellek a legkönnyebben felismerhetőtől a legnehezebbig vannak rendezve a validációs készletünkön. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI modellek: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Egyéb: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

A főbb minta: az újabb, nagyobb, utasítással finomhangolt modellek statisztikailag emberibb szöveget produkálnak bármely statisztikai detektor számára, beleértve a miénket is. A Claude 4.5 Sonnet és GPT-5.x az a két modellcsalád, ahol a pontszámeloszlásaink a legjobban átfednek az emberi alapvonallal. Ez megfelel minden 2025-ben közzétett független tanulmánynak — a fegyverkezési verseny valós, és a modell mérete közvetlen ellenszél az észlelés számára.

Ahol a detektor küszd

Nem minden szöveg egyformán felismerhető. Az eredményeket esszétípusonként bontjuk le — minden PERSUADE-utasítás kategóriájára — és a legjobb és legrosszabb közötti rés széles. [PER-TYPE TABLE]

Argumentatív, meggyőző és kifejtő esszék: a detektor legerősebb területe. Az AUC jellemzően 0,97–1,00, mert a betanítási korpuszok felülreprezentálják ezeket a stílusokat. Ez az a terület, ahol a legtöbb tanulmányi integritási eset előfordul.

Kreatív írás és irodalmi elemzés: a leggyengébb területünk. A literary_analysis esetén az AUC 0,69-re esik — az emberi stílus a szépirodalomban konvergál az LLM-kimenetekkel, és sem a felügyelt, sem a nulla lövéses komponensünk nem tudja megbízhatóan megkülönböztetni őket. Az AI magas pontszámát szépirodalmon fenntartásokkal kezelje.

Próbálja ki a detektort saját szövegén

Illessze be bármelyik dokumentumot, és tekintse meg a benchmark számokhoz használt mondatonkénti ítéletet és döntési küszöbértékeket. Ingyenes, regisztráció nélkül.

Korlátok és meghibásodási módok

A szöveg három osztálya kerüli el a detektorunkat gyakrabban, mint amennyit a validációs készletünk sugall. Humanizált AI-szöveg — adversariális parafrázis- vagy stílusátviteli eszközön átvezetett kimenet — gyakran emberként pontoz, még akkor is, ha az alapul szolgáló szöveg teljesen generált volt. Rövid szöveg (100 szó alatt) egyáltalán nehéz osztályozni, mert nincs elegendő statisztikai jel. Nem anyanyelvi angol írás AI által generáltként pontolható, mert az LLM-ek és az ESL-írók bizonyos lexikai és szintaktikai preferenciákat osztanak.

A detektorunk valószínűségi, nem bizonyító. A magas AI-pontszám egy jel a további vizsgálatra, nem a vétség bizonyítéka. Erősen ajánljuk, hogy a pontszámot kontextussal párosítsa: közelmúltbeli szerkesztési előzmény, verzióvázlatok, ugyanazon szerzőtől származó írásminták, és ahol megengedett, egy rövid utólagos beszélgetés a szerzővel.

Folyamatosan újratanítjuk a legújabb generátorkimeneteken, de mindig van egy késedelem: egy múlt héten kiadott modell lehet, hogy nincs jól reprezentálva a tanítási adatokban. Ha a munkafolyamata a legújabb modellek elfogásától függ, negyedévente ellenőrizze újra a benchmark oldalunkat a frissített adatokért.

A teljes adatkészlet letöltése

Közzétesszük a nyers validációs eredményeket, hogy kutatók, újságírók és oktatók önállóan ellenőrizhessék az állításainkat. A CSV tartalmazza: minta azonosítója, generátorazonosító (vagy 'human'), esszétípus-jel, nyers valószínűségi kimenet, bináris ítélet 50%-os küszöbnél, bináris ítélet 26,56%-os küszöbnél.

Letöltés: ai-detector-benchmark-2026-04.csv (negyedévente frissítve). Tudományos felhasználás korlátlan; kereskedelmi újraközlés hivatkozást igényel: “Plágiumdetektor — AI Detection Benchmark 2026-04”.

Az azonos módszertan interaktív változatához saját szövegén próbálja ki az AI & Plágiumellenőrző eszközünket — illessze be bármelyik dokumentumot, és tekintse meg a mondatonkénti ítéletet, ugyanazokat a döntési küszöbértékeket és a közzétett számokhoz használt megbízhatósági intervallumot.

Gyakran ismételt kérdések

Milyen gyakran frissítik ezt a benchmarkot?

Negyedévente. Amikor egy nagyobb generátor (GPT-6, Claude 5, Gemini 3) megjelenik, 4 héten belül hozzáadjuk a tesztkészlethez, és újraközzétesszük a frissített táblázatot. A korábbi verziók dátumozott fájlnevekkel vannak archiválva — a 2026-04-es kiadás a jelenlegi stabil verzió.

Miért nem teszik közzé a mintánkénti valószínűségi kimeneteket?

Tesszük — a letölthető CSV nyers valószínűségeket tartalmaz. Amit nem teszünk közzé, az az eredeti esszészöveg, mert a PAN25 korpuszra és a PERSUADE adatkészletre terjesztési korlátozások vonatkoznak. Ha a szöveget szeretné, töltse le azokat az adatkészleteket közvetlenül a forrásukból (hivatkozások a CSV dokumentációban).

Megbízhatok-e egy detektorban, ha az AUC 1,0 alatt van?

Egyetlen detektor sem ér el AUC 1,0-t minden generátoron, tehát a kérdés nem az, hogy ‘tökéletes-e’, hanem az, hogy ‘átlátható-e.’ Egy detektor, amely közzétesz AUC 0,95-öt és megmondja, hol küszd, megbízhatóbb, mint az, amelyik ‘iparágvezető pontosságot’ tesz közzé szám nélkül. A mi AUC [AUC: 0.9884] értékünk becsületes átlagos teljesítmény; a generátorankénti és esszétípusonkénti bontás az, ahol a vásárlási döntését kell meghoznia.

Alkalmas-e az AI-detektoruk tudományos publikációra?

Az alapul szolgáló módszertan igen — a Binoculars (ICML 2024) és a ModernBERT egyaránt peer-reviewed architektúra. A konkrét finomhangolási korpuszunk és küszöbértékeink szabadalmaztatottak, de a benchmark módszertan teljes mértékben reprodukálható.

Hogyan viszonyul az ingyenes online eszköz az asztali termékhez?

Ugyanaz a motor, ugyanazok a pontossági számok, ugyanaz a mondatonkénti ítéleti logika. Az asztali termék korlátlan dokumentumhosszt, offline szkennelést, integrált plágiumegyeztetést 4 milliárd weblap ellen és teljes mappák kötegelt feldolgozását adja hozzá. Egyszeri ellenőrzésekhez az online eszköz elegendő; napi munkafolyamatokhoz az asztali változat a megfelelő eszköz.

A benchmark eredmények a belső validációs készletünkből származnak, és előfordulhat, hogy nem általánosíthatók eloszláson kívüli szövegre. A közzétett számok 1 000 minta átlagos teljesítményét képviselik; a dokumentuma eltérően pontolható. Az AI-felismerési eredményeket sok bemenet egyikeként használja, nem kizárólagos bizonyítékként a szerzőségre.