Hjem › Hvor præcis er AI-detektion? Benchmark på tværs af 22 LLM'er | Plagiatdetektor

Hvor præcis er AI-detektion? Vores benchmark på tværs af 22 LLM'er

Vi offentliggør vores AI-detektors reelle præcision mod 22 generative modeller, herunder GPT-5, Claude 4, Gemini 2 og Llama 3. Per-model-tabeller, ærlige begrænsninger og et downloadbart datasæt til forskere.

2026-04-17 · Plagiarism Detector Team

Hvorfor vi offentliggør vores præcisionstal

De fleste AI-detektionsværktøjer beder dig om at stole på en enkelt uigennemsigtig score. Vi mener, du fortjener beviser. På denne side deler vi de fulde resultater fra vores interne valideringskørsel — hver generator vi testede, AUC-ROC-scoren for den, de essay-typer der gav os mest besvær, og de beslutningstærskler vi bruger i produktion.

Dette niveau af gennemsigtighed er usædvanligt i AI-detektionssektoren. De fleste konkurrenter — leverandører af plagiatkontroltjenester, specialiserede AI-detektionstjenester, generiske SaaS-værktøjer — offentliggør enten ingen præcisionsdata eller et enkelt udvalgt tal. Dette mønster er uholdbart: undervisere, forlag og forskere har brug for reproducerbare benchmarks, før de kan stole på noget værktøj.

Vores tal stammer fra en valideringsopdeling med 1.000 prøver af det kalibreringsskorpus, der bruges til at træne vores ModernBERT-detektor. Den samme metode, der driver dette benchmark, kører på hvert dokument, du indsender via vores værktøj. Intet er tilbageholdt til demoer.

Testkorpusset og metodologien

Valideringssættet indeholder 1.000 essays hentet fra et kalibreringsskorpus med 1.200 prøver: 600 menneske-skrevne essays (fra PAN25 shared-task-data og PERSUADE-argumentationsessay-datasættet) og 600 AI-genererede essays (produceret af 22 forskellige store sprogmodeller under kontrolleret promptning). 80/20-opdeling i træning og validering er fast og reproducerbar.

Hver prøve scores isoleret, uden adgang til metadata, der kunne afsløre sandhedsgrundlaget. Detektoren returnerer en sandsynlighed i [0, 100], der repræsenterer sandsynligheden for, at prøven er AI-genereret. Vi beregner derefter arealet under kurven for receiverens operationskarakteristik (AUC-ROC) per generator og på essay-typeniveau.

Alle tærskler, træningshyperparametre og rå sandsynlighedsoutput logges. Datasættet er tilgængeligt til download nederst på denne side — CSV-format, én række per prøve med generatoridentitet, essay-typeetiket, rå score og den endelige binære afgørelse.

Overordnede resultater

På tværs af det fulde sæt med 1.000 prøver opnår vores ensembledetektor AUC-ROC [AUC: 0.9884]. Ved den 50%-beslutningstærskel, vi bruger i produktion: 0 falske positiver på menneske-essays i valideringssættet, og 60% recall på AI-essays. Ved F1-optimal tærskel på 26,56% stiger recall til 90% på bekostning af 2% falske positiver — en afvejning der er bedre egnet til arbejdsgange med høj sensitivitet.

Den dokumentniveaubaserede afgørelse i vores offentlige værktøj bruger den konservative 50%-tærskel, der prioriterer nul falske positiver frem for maksimal recall. Lærere, forlag og forskere kan tilsidesætte dette via følsomhedsskyderen i widgetten, når de ønsker mere aggressiv markering.

Til sammenligning scorer Binoculars zero-shot-komponenten alene (en 2× Llama-3.1-8B-opsætning) AUC [AUC: 0.8509] selvstændigt. Den finjusterede ModernBERT-komponent alene scorer [AUC: 1.0000] på in-distribution essays og [AUC: 0.9069] på out-of-distribution tekst. Ensemblet befinder sig imellem dem på én enkelt akse, men overgår begge i gennemsnit, fordi det korrigerer deres komplementære svagheder.

Per-generator-opdeling

Her er per-model AUC-ROC-tabellen. Modeller er ordnet fra lettest til sværest at detektere i vores valideringssæt. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI-modeller: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Andre: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Overordnet mønster: nyere, større, instruktionsjusterede modeller har tendens til at producere tekst, der ser mere menneskelig ud for enhver statistisk detektor, inklusive vores. Claude 4.5 Sonnet og GPT-5.x er de to familier, hvor vores scoringsfordelinger overlapper mest med den menneskelige baseline. Dette stemmer overens med alle uafhængige undersøgelser offentliggjort i 2025 — kapløbet er reelt, og modelstørrelse er en direkte modvind for detektion.

Hvor detektoren kæmper

Ikke al tekst er lige let at detektere. Vi opdeler resultaterne efter essay-type — hver PERSUADE-promptkategori — og kløften mellem bedst og dårligst er bred. [PER-TYPE TABLE]

Argumenterende, overbevisende og forklarende essays: detektorens stærkeste domæne. AUC typisk 0,97–1,00, fordi træningsskorpusserne overvægter disse stilarter. Det er her, de fleste akademiske integritetssager falder.

Kreativ skrivning og litterær analyse: vores svageste domæne. For literary_analysis falder AUC til 0,69 — menneskelig stil i fiktion konvergerer med LLM-output, og hverken vores superviserede eller zero-shot-komponent kan pålideligt skelne dem fra hinanden. Behandl en høj AI-score på fiktion med skepsis.

Prøv detektoren på din egen tekst

Indsæt ethvert dokument og se den samme afgørelse per sætning og de beslutningstærskler, vi bruger til disse benchmarktal. Gratis, ingen tilmelding kræves.

Begrænsninger og fejlmåder

Tre klasser af tekst undslipper vores detektor hyppigere end vores valideringssæt antyder. Humaniseret AI-tekst — output, der er behandlet med et adversarielt parafraserings- eller stil-overførselsværktøj — scores ofte som menneskelig, selv når den underliggende tekst var fuldt genereret. Kort tekst (under 100 ord) er svær at klassificere, fordi der ikke er tilstrækkeligt statistisk signal. Ikke-native engelsk skrivning kan scores som AI-genereret, fordi LLM'er og ESL-skribenter deler visse leksikale og syntaktiske præferencer.

Vores detektor er probabilistisk, ikke bevismæssig. En høj AI-score er et signal til yderligere undersøgelse, ikke bevis for uredelighed. Vi anbefaler kraftigt at kombinere scoren med kontekst: seneste redigeringshistorik, versionsudkast, skriftlige eksempler fra samme forfatter og — hvor det er tilladt — en kort opfølgende samtale med forfatteren.

Vi genoptræner løbende på de nyeste generatoroutput, men der er altid en forsinkelse: en model, der blev udgivet i sidste uge, er muligvis ikke godt repræsenteret i træningsdataene. Hvis din arbejdsgang afhænger af at opfange de nyeste modeller, bør du genbesøge vores benchmarkside kvartalsvis for de opdaterede tal.

Download det fulde datasæt

Vi offentliggør de rå valideringsresultater, så forskere, journalister og undervisere uafhængigt kan verificere vores påstande. CSV'en indeholder: prøve-ID, generatoridentitet (eller 'human'), essay-typeetiket, rå sandsynlighedsoutput, binær afgørelse ved 50%-tærskel, binær afgørelse ved 26,56%-tærskel.

Download: ai-detector-benchmark-2026-04.csv (opdateret kvartalsvis). Akademisk brug er ubegrænset; kommerciel genudgivelse kræver kildeangivelse: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

Prøv vores AI & Plagiatkontrolfunktion for en interaktiv version af den samme metode på din egen tekst — indsæt ethvert dokument og se afgørelsen per sætning, de samme beslutningstærskler og det samme konfidensinterval, vi bruger til disse offentliggjorte tal.

Ofte stillede spørgsmål

Hvor ofte opdateres dette benchmark?

Hvert kvartal. Når en stor generator (GPT-6, Claude 5, Gemini 3) lanceres, tilføjer vi den til testkorpusset inden for 4 uger og genpublicerer den opdaterede tabel. Historiske versioner arkiveres med daterede filnavne — udgaven fra 2026-04 er den nuværende stabile udgivelse.

Hvorfor offentliggør I ikke per-prøve sandsynlighedsoutput?

Det gør vi — den downloadbare CSV indeholder rå sandsynligheder. Det, vi ikke offentliggør, er den originale essaytekst, fordi PAN25-korpusset og PERSUADE-datasættet har restriktioner for videredistribution. Hvis du vil have teksten, skal du hente disse datasæt direkte fra deres kilde (links i CSV-dokumentationen).

Kan jeg stole på en detektor, hvis AUC er under 1,0?

Ingen detektor opnår AUC 1,0 på hver generator, så spørgsmålet er ikke ‘er den perfekt’ men ‘er den gennemsigtig.’ En detektor, der offentliggør AUC 0,95 og fortæller dig, hvor den kæmper, er mere troværdig end én, der offentliggør ‘brancheledende præcision’ uden noget tal. Vores AUC [AUC: 0.9884] er ærlig gennemsnitlig præstation; per-generator- og per-essay-type-opdelingerne er, hvor du bør træffe din indkøbsbeslutning.

Er din AI-detektor klar til akademisk publicering?

Den underliggende metode er det — Binoculars (ICML 2024) og ModernBERT er begge fagfællebedømte arkitekturer. Vores specifikke finjusteringskorpus og tærskler er proprietære, men benchmark-metodologien er fuldt reproducerbar.

Hvordan sammenligner det gratis online-værktøj sig med skrivebordsapplikationen?

Samme motor, samme præcisionstal, samme afgørelseslogik per sætning. Skrivebordsapplikationen tilføjer ubegrænset dokumentlængde, offline-scanning, integreret plagiatkontrol mod 4 milliarder websider og batchbehandling af hele mapper. Til enkeltstående kontroller er onlineværktøjet tilstrækkeligt; til daglige arbejdsgange er skrivebordsapplikationen det rette valg.

Benchmarkresultaterne er afledt af vores interne valideringssæt og generaliserer muligvis ikke til out-of-distribution tekst. Offentliggjorte tal repræsenterer gennemsnitlig præstation på tværs af 1.000 prøver; dit dokument kan score anderledes. Brug AI-detektionsresultater som ét input blandt mange, ikke som eneste bevis for forfatterskab.