Hjem › Hvilken AI er sværest at detektere? GPT mod Claude mod Gemini | Plagiatdetektor

Hvilken AI er sværest at detektere? GPT mod Claude mod Gemini mod Llama

Ikke al AI-tekst er lige let at detektere. Her er resultaterne af vores per-generator-benchmark — hvilke modelfamilier vores detektor fanger med næsten perfekt præcision, hvilke den kæmper med, og hvad det fortæller dig om at vælge en detektionsarbejdsgang.

2026-04-17 · Plagiarism Detector Team

Det korte svar — Leaderboard

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Ordnet fra lettest til sværest at detektere i vores valideringssæt. Spredningen er bred — AUC på nogle modelfamilier overstiger 0,99, mens andre falder til 0,80-erne. Detektionsvanskelighed korrelerer med modelstørrelse, instruktionsjusteringssofistikering og outputvarians.

For den fulde per-generator-opdeling-metodologi, se vores præcisionsbenchmarkside. Denne artikel opsummerer de praktiske implikationer af disse data for brugere, der vælger hvilken detektor de kan stole på, og hvilken model de skal bruge.

OpenAI-familien — GPT

GPT-3.5 er den lettest-detekterbare moderne model — AUC [AUC: ?] i vores sæt. Artefakter fra tidligere generationer (gentagelse, usikkerhed, tamt register) er stadig tydeligt til stede. GPT-4 falder til AUC [AUC: ?], GPT-4o til [AUC: ?], hvilket afspejler progressivt bedre kalibrering. GPT-5.x er den sværeste af familien — AUC [AUC: ?] — fordi instruktionsjusteringsteamet eksplicit har målrettet fjernelse af detektionsartefakter.

Praktisk implikation: akademiske arbejdsgange bekymrede over snyd i GPT-3.5-æraen kan stole stærkt på detektion alene. Arbejdsgange, der er bekymrede for GPT-5, skal kombinere detektion med kontekstuelle beviser som beskrevet i vores lærervejledning.

Temperaturindstillinger er vigtige. Lavtemperatur-output (t≤0,5) er lettere at detektere, fordi de koncentrerer sandsynlighedsmassen på et snævrere ordforråd. De fleste chatinterfaces standardindstiller til t≈0,7, hvilket placerer tekst i en moderat detekterbar zone. Adversarielle brugere skruer eksplicit op for temperatur eller bruger mangfoldig dekodning for at udvide rækkevidden og undgå detektion — vores ensemble korrigerer delvist for dette, men ikke fuldstændigt.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude-familien producerer konsekvent mindre gentagende, mere stilistisk varieret tekst end samme generations GPT-modeller, hvilket gør den sværere at detektere via statistiske metoder.

Claudes konstitutionelle AI-træning målretter specifikt de “maskin-kendetegn”, som vores superviserede klassifikator lærer fra — hedging-mønstre, overdreven brug af bestemte bindeord, forudsigelig afsnitsstruktur. Dette er et direkte adversarielt forhold: generatoren er trænet mod de features, som detektoren er afhængig af.

Claude 4.5 Sonnet og GPT-5.x er tæt på i vanskelighed. Deres scoringsfordelinger overlapper mest med den menneskelige baseline i vores valideringsdata. Hvis din arbejdsgang retter sig mod en af disse modeller, skal du forvente reduceret recall ved standardtærsklen og overveje at sænke til F1-optimal for screening med høj sensitivitet.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini har vist den mest variable detektionspræstation på tværs af versioner — nogle mellemliggende releases er midlertidigt gået tilbage, inden forbedringer landede.

Geminis multimodale træning betyder, at tekstbaserede output nogle gange bærer rudimentære mønstre fra billede-billedtekst- eller kodeforklarings-domæner. Vores detektor opfanger disse, hvilket forklarer Geminis lidt højere detekterbarhed på blandede domæneprompts end på ren prosa.

For Google Workspace-brugere, hvis studerende eller medarbejdere bruger Gemini via Docs, er detektionssignalet lig det rå API-output. Vi har ikke observeret workspace-integrationsspecifikke undvigelsesmønstre, der er distinkte fra direkte Gemini API-brug.

Tjek en prøve fra en hvilken som helst model

Indsæt output fra en hvilken som helst LLM og se afgørelsen per sætning. Vores detektor behandler alle 22 modelfamilier som en enkelt ensemble-kontrol.

Meta og open-weights-modeller

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Open-weights-modeller spænder over et bredere spektrum end lukkede — finjusteringsvarianter, kvantiserede implementeringer og fællesskabsmodificerede checkpoints producerer alle subtilt forskellige output.

Detektion på open-weights er strategisk vigtig, fordi humaniseringsværktøjer normalt er bygget på open-weights-modeller — Llama- og Mistral-derivater kører lokalt til lav pris, hvilket er grunden til, at parafraserings- og stil-overførselstjenester prissætter dem. Hvis din bekymring er humaniseret AI, forsvarer du dig i sidste ende mod Llama-familie-generering.

DeepSeek R1 og o3-mini (OpenAIs ræsonneringsmodel) fortjener særskilt omtale. Begge producerer tekst med ræsonnerings-kæde-artefakter — eksplicit trin-for-trin-logik synlig i output — som vores detektor har lært at genkende. Ræsonneringsmodeller er i øjeblikket lettere at detektere end deres base-chat-modstykker af denne grund.

Hvad disse forskelle betyder for dig

Hvis du vælger en model at skrive med, og detektion ikke er din bekymring, er Claude 4.5 Sonnet og GPT-5 de sværest-detekterbare. Hvis du bygger en detektionsarbejdsgang, prioritér for de modeller, du faktisk ser: de fleste akademiske misbrug kører stadig på GPT-4/5 via gratis interfaces; det meste indholdsfarming kører på Llama-derivater med humanisering.

En enkelt detektor trænet på én modelfamilie vil præstere dårligst på de andre. Vores ensemble-tilgang træner på prøver fra alle 22 generatorer, hvilket er grunden til, at per-model AUC på svære tilfælde (Claude 4.5, GPT-5) stadig er over 0,90, mens en hvilken som helst enkelt-model-trænet detektor ville falde under 0,80.

Den underliggende tendens: detektionsvanskelighed stiger hurtigere end generatorrelease-kadencen. Hvert nyt flagskib er sværere at detektere end det forrige, genoptræning lukker gabet men ikke fuldstændigt. Forvent, at 2026–2027-baseline vil være lavere AUC på frontiermodellerne og omtrent konstant på ældre modeller.

Ofte stillede spørgsmål

Hvis nogle modeller er sværere at detektere, bør jeg da helt undlade at bruge detektorer?

Nej — selv på de sværeste modelfamilier er vores AUC over 0,85, hvilket er et stærkt signal. Spørgsmålet er, hvordan du bruger signalet. For svært-detekterbare modeller, kombiner scoren med korroborerende beviser (redigeringshistorik, in-klasse arbejde, studerendesamtale). For lettere modeller er scoren alene ofte tilstrækkelig.

Hvilken model bør jeg bruge, hvis jeg vil undgå detektion?

Vi besvarer ikke dette spørgsmål direkte — vi driver et detektionsværktøj, ikke en undvigelsesguide. Hvad vi vil sige: detekterbar-versus-udetekterbar er ikke den rette akse til at vælge en model. Kvalitet, pris og egnethed til formålet er langt vigtigere end detektionsvanskelighed. Hvis du skriver legitimt med AI-assistance, er oplysning og gennemsigtig arbejdsgang vigtigere end at skjule værktøjet.

Har open-weights-modelvarianter forskellige detektionsprofiler?

Ja, og det er meningsfuldt. En fællesskabsfinjusteret Llama 3.3-variant trænet til en bestemt skrivestil kan producere tekst, der scorer anderledes end vanilla Llama 3.3. Vores benchmark dækker standardcheckpointet; brugerdefinerede finjusteringer kan være lettere (hvis de indsnævrer outputfordelinger) eller sværere (hvis de eksplicit adversarialt træner mod detektion).

Hvordan påvirker temperatur og sampling detekterbarhed?

Højere temperatur og mere mangfoldig sampling reducerer generelt detekterbarhed, fordi de udvider outputfordelingen. Lav-temperatur greedy decoding er lettest at detektere. De fleste produktionschatinterfaces kører t≈0,7–1,0 med nucleus sampling, hvilket placerer dem i et moderat detekterbart regime — vores ensemble præsterer på lignende vis over standardrækken.

Hvornår ankommer GPT-6 eller Claude 5, og hvad bør jeg forvente?

Midt i 2026 er konsensus-forecaset for begge. Forvent, at detektions-AUC på de nye familier falder til 0,80–0,85-intervallet de første 4–8 uger efter lancering, mens vi indsamler prøver og genoptræner. Historiske versioner antyder fuld genopretning inden for 8–12 uger, hvis modellen er bredt tilgængelig; længere for sjældne eller begrænsede adgangsmodeller.

Per-model AUC-tal er afledt af vores interne validering og generaliserer muligvis ikke. Hver models vanskelighed ændrer sig over tid, efterhånden som både generatoren og vores træningskorpus udvikler sig. Nuværende data afspejler benchmark-kørslen fra 2026-04.