Ikke al AI-tekst er lige let at detektere. Her er resultaterne af vores per-generator-benchmark — hvilke modelfamilier vores detektor fanger med næsten perfekt præcision, hvilke den kæmper med, og hvad det fortæller dig om at vælge en detektionsarbejdsgang.
[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]
Ordnet fra lettest til sværest at detektere i vores valideringssæt. Spredningen er bred — AUC på nogle modelfamilier overstiger 0,99, mens andre falder til 0,80-erne. Detektionsvanskelighed korrelerer med modelstørrelse, instruktionsjusteringssofistikering og outputvarians.
For den fulde per-generator-opdeling-metodologi, se vores præcisionsbenchmarkside. Denne artikel opsummerer de praktiske implikationer af disse data for brugere, der vælger hvilken detektor de kan stole på, og hvilken model de skal bruge.
GPT-3.5 er den lettest-detekterbare moderne model — AUC [AUC: ?] i vores sæt. Artefakter fra tidligere generationer (gentagelse, usikkerhed, tamt register) er stadig tydeligt til stede. GPT-4 falder til AUC [AUC: ?], GPT-4o til [AUC: ?], hvilket afspejler progressivt bedre kalibrering. GPT-5.x er den sværeste af familien — AUC [AUC: ?] — fordi instruktionsjusteringsteamet eksplicit har målrettet fjernelse af detektionsartefakter.
Praktisk implikation: akademiske arbejdsgange bekymrede over snyd i GPT-3.5-æraen kan stole stærkt på detektion alene. Arbejdsgange, der er bekymrede for GPT-5, skal kombinere detektion med kontekstuelle beviser som beskrevet i vores lærervejledning.
Temperaturindstillinger er vigtige. Lavtemperatur-output (t≤0,5) er lettere at detektere, fordi de koncentrerer sandsynlighedsmassen på et snævrere ordforråd. De fleste chatinterfaces standardindstiller til t≈0,7, hvilket placerer tekst i en moderat detekterbar zone. Adversarielle brugere skruer eksplicit op for temperatur eller bruger mangfoldig dekodning for at udvide rækkevidden og undgå detektion — vores ensemble korrigerer delvist for dette, men ikke fuldstændigt.
Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude-familien producerer konsekvent mindre gentagende, mere stilistisk varieret tekst end samme generations GPT-modeller, hvilket gør den sværere at detektere via statistiske metoder.
Claudes konstitutionelle AI-træning målretter specifikt de “maskin-kendetegn”, som vores superviserede klassifikator lærer fra — hedging-mønstre, overdreven brug af bestemte bindeord, forudsigelig afsnitsstruktur. Dette er et direkte adversarielt forhold: generatoren er trænet mod de features, som detektoren er afhængig af.
Claude 4.5 Sonnet og GPT-5.x er tæt på i vanskelighed. Deres scoringsfordelinger overlapper mest med den menneskelige baseline i vores valideringsdata. Hvis din arbejdsgang retter sig mod en af disse modeller, skal du forvente reduceret recall ved standardtærsklen og overveje at sænke til F1-optimal for screening med høj sensitivitet.
Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini har vist den mest variable detektionspræstation på tværs af versioner — nogle mellemliggende releases er midlertidigt gået tilbage, inden forbedringer landede.
Geminis multimodale træning betyder, at tekstbaserede output nogle gange bærer rudimentære mønstre fra billede-billedtekst- eller kodeforklarings-domæner. Vores detektor opfanger disse, hvilket forklarer Geminis lidt højere detekterbarhed på blandede domæneprompts end på ren prosa.
For Google Workspace-brugere, hvis studerende eller medarbejdere bruger Gemini via Docs, er detektionssignalet lig det rå API-output. Vi har ikke observeret workspace-integrationsspecifikke undvigelsesmønstre, der er distinkte fra direkte Gemini API-brug.
Indsæt output fra en hvilken som helst LLM og se afgørelsen per sætning. Vores detektor behandler alle 22 modelfamilier som en enkelt ensemble-kontrol.
Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Open-weights-modeller spænder over et bredere spektrum end lukkede — finjusteringsvarianter, kvantiserede implementeringer og fællesskabsmodificerede checkpoints producerer alle subtilt forskellige output.
Detektion på open-weights er strategisk vigtig, fordi humaniseringsværktøjer normalt er bygget på open-weights-modeller — Llama- og Mistral-derivater kører lokalt til lav pris, hvilket er grunden til, at parafraserings- og stil-overførselstjenester prissætter dem. Hvis din bekymring er humaniseret AI, forsvarer du dig i sidste ende mod Llama-familie-generering.
DeepSeek R1 og o3-mini (OpenAIs ræsonneringsmodel) fortjener særskilt omtale. Begge producerer tekst med ræsonnerings-kæde-artefakter — eksplicit trin-for-trin-logik synlig i output — som vores detektor har lært at genkende. Ræsonneringsmodeller er i øjeblikket lettere at detektere end deres base-chat-modstykker af denne grund.
Hvis du vælger en model at skrive med, og detektion ikke er din bekymring, er Claude 4.5 Sonnet og GPT-5 de sværest-detekterbare. Hvis du bygger en detektionsarbejdsgang, prioritér for de modeller, du faktisk ser: de fleste akademiske misbrug kører stadig på GPT-4/5 via gratis interfaces; det meste indholdsfarming kører på Llama-derivater med humanisering.
En enkelt detektor trænet på én modelfamilie vil præstere dårligst på de andre. Vores ensemble-tilgang træner på prøver fra alle 22 generatorer, hvilket er grunden til, at per-model AUC på svære tilfælde (Claude 4.5, GPT-5) stadig er over 0,90, mens en hvilken som helst enkelt-model-trænet detektor ville falde under 0,80.
Den underliggende tendens: detektionsvanskelighed stiger hurtigere end generatorrelease-kadencen. Hvert nyt flagskib er sværere at detektere end det forrige, genoptræning lukker gabet men ikke fuldstændigt. Forvent, at 2026–2027-baseline vil være lavere AUC på frontiermodellerne og omtrent konstant på ældre modeller.
Per-model AUC-tal er afledt af vores interne validering og generaliserer muligvis ikke. Hver models vanskelighed ændrer sig over tid, efterhånden som både generatoren og vores træningskorpus udvikler sig. Nuværende data afspejler benchmark-kørslen fra 2026-04.