Domov › Ktorá AI sa najťažšie detekuje? GPT vs Claude vs Gemini | Detektor plagiátov

Ktorá AI sa najťažšie detekuje? GPT vs Claude vs Gemini vs Llama

Nie všetky texty AI sú rovnako detekovateľné. Tu sú výsledky nášho benchmarku pre každý generátor — ktoré rodiny modelov náš detektor zachytáva s takmer dokonalou presnosťou, s ktorými má problémy a čo vám to hovorí o výbere detekčného pracovného toku.

2026-04-17 · Plagiarism Detector Team

Krátka odpoveď — rebríček

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Zoradené od najľahšie po najťažšie detekovateľné na našej validačnej sade. Rozpätie je výrazné — AUC niektorých rodín modelov presahuje 0,99, zatiaľ čo iné klesajú do hodnôt 0,80. Náročnosť detekcie koreluje s veľkosťou modelu, sofistikovanosťou inštrukčného doladenia a rozptylom výstupov.

Pre celú metodológiu rozdelenia podľa generátorov si pozrite našu stránku s benchmarkom presnosti. Tento článok sumarizuje praktické dôsledky týchto dát pre používateľov vyberajúcich, ktorému detektoru dôverovať a ktorý model použiť.

Rodina OpenAI — GPT

GPT-3.5 je najľahšie detekovateľný moderný model — AUC [AUC: ?] na našej sade. Artefakty generovania staršej generácie (opakovanie, obozretnosť, nenápadný register) zostávajú jasne prítomné. GPT-4 klesá na AUC [AUC: ?], GPT-4o na [AUC: ?], čo odráža postupne lepšiu kalibráciu. GPT-5.x je najťažší v rodine — AUC [AUC: ?] — pretože tím inštrukčného doladenia explicitne cielil na odstránenie artefaktov detekcie.

Praktický dôsledok: akademické pracovné toky znepokojené podvádzaním éry GPT-3.5 sa môžu silno spoliehať na samotnú detekciu. Pracovné toky znepokojené GPT-5 musia párovať detekciu s kontextuálnymi dôkazmi, ako je opísané v našom sprievodcovi pracovným tokom pre učiteľov.

Nastavenie teploty je dôležité. Výstupy s nízkou teplotou (t≤0,5) sú ľahšie detekovateľné, pretože koncentrujú pravdepodobnostnú masu na užšiu slovnú zásobu. Väčšina chatových rozhraní predvolene používa t≈0,7, čo text umiestňuje do mierne detekovateľnej zóny. Adversariálni používatelia explicitne zvyšujú teplotu alebo používajú rôzne dekódovanie na rozšírenie rozsahu a vyhýbanie sa detekcii — náš ansámbel to čiastočne koriguje, ale nie úplne.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Rodina Claude konzistentne produkuje menej repetitívny, štylisticky rozmanitejší text ako GPT modely rovnakej generácie, čo sťažuje detekciu štatistickými metódami.

Konštitucionálne trénovanie AI spoločnosti Claude sa špecificky zameriava na “strojové príznaky”, z ktorých sa učí náš dozorovaný klasifikátor — vzory hedgovania, nadmerné používanie špecifických spojovacích výrazov, predvídateľná štruktúra odsekov. Toto je priamy adversariálny vzťah: generátor je trénovaný voči vlastnostiam, na ktoré sa detektor spolieha.

Claude 4.5 Sonnet a GPT-5.x sú si v náročnosti blízkí. Ich rozdelenia skóre sa v našich validačných dátach najväčšmi prekrývajú s ľudskou základnou líniou. Ak váš pracovný tok cieli na niektorý z týchto modelov, očakávajte zníženie citlivosti pri predvolenom prahu a zvážte zníženie na optimálny F1 pre skríning s vysokou citlivosťou.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini prejavoval najpremennlivejší detekčný výkon naprieč verziami — niektoré medzivydania dočasne regredovali, kým sa zlepšenia neobjavili.

Multimodálne trénovanie Gemini znamená, že textové výstupy niekedy nesú zvyškové vzory z domén popisovania obrázkov alebo vysvetľovania kódu. Náš detektor si to všíma, čo vysvetľuje mierne vyššiu detekovateľnosť Gemini na zmiešaných výzvach v porovnaní s čistou prózou.

Pre používateľov Google Workspace, ktorých študenti alebo zamestnanci používajú Gemini cez Docs, je detekčný signál podobný surovému výstupu API. Nezaznamenali sme žiadne evasívne vzory špecifické pre integráciu s pracovným priestorom odlišné od priameho použitia Gemini API.

Skontrolujte vzorku z ľubovoľného modelu

Vložte výstup z ľubovoľného LLM a pozrite si verdikt pre každú vetu. Náš detektor zaobchádza so všetkými 22 rodinami modelov ako s jednou ansámblovou kontrolou.

Meta a modely s otvorenou váhou

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Modely s otvorenou váhou zahŕňajú širší rozsah ako uzavreté — varianty doladenia, kvantizované nasadenia a komunitne modifikované checkpointy produkujú jemne odlišné výstupy.

Detekcia modelov s otvorenou váhou je strategicky dôležitá, pretože nástroje na humanizáciu sú zvyčajne postavené na modeloch s otvorenou váhou — deriváty Llama a Mistral bežia lokálne pri nízkych nákladoch, čo je dôvod, prečo preformulačné a style-transfer služby na nich majú ceny. Ak vás znepokojuje humanizovaná AI, v konečnom dôsledku bráníte voči generovaniu rodiny Llama.

DeepSeek R1 a o3-mini (výsuvný model OpenAI) si zaslúžia samostatnú zmienku. Obaja produkujú text s artefaktmi reťazca uvažovania — explicitná logika krok za krokom viditeľná vo výstupe — ktorú sa náš detektor naučil rozpoznávať. Modely uvažovania sú v súčasnosti ľahšie detekovateľné ako ich základné chatové náprotivky práve z tohto dôvodu.

Čo tieto rozdiely znamenajú pre vás

Ak si vyberáte model na písanie a detekcia vás nezaujíma, Claude 4.5 Sonnet a GPT-5 sú najťažšie detekovateľné. Ak budujete detekčný pracovný tok, uprednostnite modely, ktoré skutočne vidíte: väčšina akademického zneužívania stále beží na GPT-4/5 cez bezplatné rozhrania; väčšina obsahového farmovania beží na humanizátoroch odvodených od Llama.

Jeden detektor trénovaný na jednej rodine modelov bude mať najhorší výkon na ostatných. Náš ansámbel trénuje na vzorkách zo všetkých 22 generátorov, čo je dôvod, prečo AUC pre každý model na ťažkých prípadoch (Claude 4.5, GPT-5) je stále nad 0,90, zatiaľ čo akýkoľvek detektor trénovaný na jednom modeli by klesol pod 0,80.

Základný trend: náročnosť detekcie rastie rýchlejšie ako kadencia vydaní generátorov. Každý nový flagship je ťažšie detekovateľný ako predchádzajúci, pretrénovanie uzatvára medzeru, ale nie úplne. Očakávajte, že základná línia 2026–2027 bude mať nižšie AUC na frontierových modeloch a zhruba konštantné na starých modeloch.

Často kladené otázky

Ak sú niektoré modely ťažšie detekovateľné, mal by som sa detektorom úplne vyhnúť?

Nie — aj na najťažších rodinách modelov je naše AUC nad 0,85, čo je silný signál. Otázka je, ako signál používate. Pre ťažko detekovateľné modely párujte skóre s potvrdzujúcimi dôkazmi (história úprav, práca v triede, rozhovor so študentom). Pre ľahšie modely je skóre samo o sebe často postačujúce.

Ktorý model by som mal použiť, ak chcem vyhnúť sa detekcii?

Na túto otázku priamo neodpovedáme — prevádzkujeme detekčný nástroj, nie sprievodcu vyhýbaním. Čo povieme: detekovateľné verzus nedetekovateľné nie je správna os pri výbere modelu. Kvalita, cena a vhodnosť na účel sú oveľa dôležitejšie ako náročnosť detekcie. Ak píšete legitímne s pomocou AI, zverejnenie a transparentný pracovný tok sú dôležitejšie ako skrývanie nástroja.

Majú varianty modelov s otvorenou váhou rôzne detekčné profily?

Áno, a to zmysluplne. Variant Llama 3.3 doladený komunitou pre konkrétny štýl písania môže produkovať text, ktorý skóruje inak ako vanilkový Llama 3.3. Náš benchmark pokrýva štandardný checkpoint; vlastné doladenia môžu byť ľahšie (ak zužujú výstupné distribúcie) alebo ťažšie (ak explicitne adversariálne trénujú voči detekcii) detekovateľné.

Ako ovplyvňuje teplota a vzorkovanie detekovateľnosť?

Vyššia teplota a rozmanitejšie vzorkovanie všeobecne znižuje detekovateľnosť, pretože rozširujú výstupnú distribúciu. Greedy dekódovanie s nízkou teplotou je najľahšie detekovateľné. Väčšina produkčných chatových rozhraní beží na t≈0,7–1,0 s nukleovým vzorkovaním, čo ich umiestňuje do mierne detekovateľného režimu — náš ansámbel dosahuje podobné výsledky naprieč predvoleným rozsahom.

Kedy príde GPT-6 alebo Claude 5 a čo môžem čakať?

Konsenzusná predpoveď pre oba je polovica roka 2026. Očakávajte, že AUC detekcie nových rodín klesne do rozsahu 0,80–0,85 prvých 4–8 týždňov po spustení, kým zbierame vzorky a pretrénujeme. Historické verzie naznačujú úplné zotavenie do 8–12 týždňov, ak je model široko dostupný; dlhšie pre vzácne alebo obmedzene dostupné modely.

Čísla AUC pre každý model sú odvodené z našej internej validácie a nemusia sa zovšeobecniť. Náročnosť každého modelu sa v priebehu času mení, keď sa vyvíja generátor aj náš trénovací korpus. Aktuálne dáta odrážajú benchmark run 2026-04.