Hem › Vilken AI är svårast att detektera? GPT vs Claude vs Gemini | Plagiatdetektor

Vilken AI är svårast att detektera? GPT vs Claude vs Gemini vs Llama

Inte all AI-text är lika detekterbar. Här är resultaten av vår benchmark per generator — vilka modellfamiljer vår detektor fångar med nästan perfekt noggrannhet, vilka den kämpar med och vad det berättar om att välja ett detektionsarbetsflöde.

2026-04-17 · Plagiarism Detector Team

Det korta svaret — Topplista

[LEADERBOARD TABLE — fill with real per-model AUC numbers from benchmark before publishing]

Ordnade från lättast till svårast att detektera i vårt valideringsset. Spridningen är bred — AUC på vissa modellfamiljer överstiger 0,99 medan andra sjunker till 0,80-talet. Detektionssvårighet korrelerar med modellstorlek, sofistikering i instruktionsjustering och utdatavariation.

För den fullständiga uppdelningsmetodiken per generator, se vår noggrannhetsbenchmarksida. Denna artikel sammanfattar de praktiska konsekvenserna av dessa data för användare som väljer vilken detektor de ska lita på och vilken modell de ska använda.

OpenAI-familjen — GPT

GPT-3.5 är den lättaste moderna modellen att detektera — AUC [AUC: ?] i vårt set. Artefakter från äldre generering (repetition, undvikande, blekt register) är fortfarande tydligt närvarande. GPT-4 sjunker till AUC [AUC: ?], GPT-4o till [AUC: ?], vilket återspeglar progressivt bättre kalibrering. GPT-5.x är den svåraste i familjen — AUC [AUC: ?] — eftersom instruktionsjusteringsteamet explicit inriktade sig på borttagning av detektionsartefakter.

Praktisk konsekvens: akademiska arbetsflöden som är oroliga för GPT-3.5-erans fusk kan förlita sig starkt på enbart detektion. Arbetsflöden som är oroliga för GPT-5 behöver para ihop detektion med kontextuell evidens, som beskrivs i vår lärararbetsflödesguide.

Temperaturinställningar spelar roll. Lågtemperaturutdata (t≤0,5) är lättare att detektera eftersom de koncentrerar sannolikhetsmassa på ett smalare ordförråd. De flesta chattgränssnitt som standard t≈0,7, vilket placerar text i en måttligt detekterbar zon. Adversariella användare skruvar explicit upp temperaturen eller använder diversifierad avkodning för att vidga intervallet och undgå detektion — vår ensemble korrigerar delvis för detta men inte helt.

Anthropic — Claude

Claude 3 Opus: AUC [AUC: ?]. Claude 3.5 Sonnet: [AUC: ?]. Claude 4 Opus: [AUC: ?]. Claude 4.5 Sonnet: [AUC: ?]. Claude-familjen producerar konsekvent mindre repetitiv, mer stilistiskt varierad text än GPT-modeller av samma generation, vilket gör den svårare att detektera via statistiska metoder.

Claudes konstitutionella AI-träning riktar specifikt in sig på de “maskinella signalerna” som vår övervakade klassificerare lär sig från — undvikande mönster, överanvändning av specifika konnektorer, förutsägbar styckesstruktur. Detta är en direkt adversariell relation: generatorn tränas mot egenskaper som detektorn förlitar sig på.

Claude 4.5 Sonnet och GPT-5.x är nära i svårighet. Deras poängdistributioner överlappar den mänskliga baslinjen mest i våra valideringsdata. Om ditt arbetsflöde riktar in sig på någon av dessa modeller, förvänta dig minskad recall vid standardgränsvärdet och överväg att sänka till F1-optimal för högkänslig screening.

Google — Gemini

Gemini 1.5 Pro: AUC [AUC: ?]. Gemini 2.0: [AUC: ?]. Gemini 2.5: [AUC: ?]. Gemini har visat den mest variabla detektionsprestandan över versioner — vissa mellanliggande versioner regresserade tillfälligt innan förbättringar landade.

Geminis multimodala träning innebär att textbaserade utdata ibland bär resterande mönster från bildtexts- eller kodförklaringsdomäner. Vår detektor fångar upp dessa, vilket förklarar Geminis något högre detekterbarhet på blanddominsprompter än på ren prosa.

För Google Workspace-användare vars studenter eller anställda använder Gemini via Dokument, är detektionssignalen liknande rådet API-utdata. Vi har inte observerat arbetsplatsintegrationsspecifika undvikande mönster som skiljer sig från direkt Gemini API-användning.

Kontrollera ett sampel från vilken modell som helst

Klistra in utdata från valfri LLM och se utslaget per mening. Vår detektor behandlar alla 22 modellfamiljer som en enda ensemblekontroll.

Meta och öppenviktsmodeller

Llama 3.1: AUC [AUC: ?]. Llama 3.3: [AUC: ?]. Qwen 2.5: [AUC: ?]. Qwen 3: [AUC: ?]. DeepSeek R1: [AUC: ?]. Mistral Large: [AUC: ?]. Öppenviktsmodeller spänner ett bredare intervall än slutna — finjusteringsvarianter, kvantiserade driftsättningar och community-modifierade kontrollpunkter producerar alla subtilt olika utdata.

Detektion på öppenviktsmodeller är strategiskt viktigt eftersom humaniseringsverktyg vanligtvis är byggda på öppenviktsmodeller — Llama- och Mistral-derivat körs lokalt till låg kostnad, vilket är varför omformuleringstjänster och stilöverföringstjänster prissätter dem. Om din oro är humaniserad AI försvarar du dig i slutändan mot Llama-familjesgenerering.

DeepSeek R1 och o3-mini (OpenAI:s resonangsmodell) förtjänar separat omnämnande. Båda producerar text med resonanskedjartefakter — explicit steg-för-steg-logik synlig i utdata — vilket vår detektor har lärt sig att känna igen. Resonangsmodeller är för närvarande lättare att detektera än deras bashantterande motsvarigheter av just denna anledning.

Vad dessa skillnader betyder för dig

Om du väljer en modell att skriva med och detektion inte är din oro, är Claude 4.5 Sonnet och GPT-5 de svårast att detektera. Om du bygger ett detektionsarbetsflöde, prioritera för de modeller du faktiskt ser: de flesta akademiska missbruk körs fortfarande på GPT-4/5 via gratis gränssnitt; det mesta innehållsodlandet körs på Llama-derivata humaniseringsverktyg.

En enda detektor tränad på en enda modellfamilj kommer att prestera sämst på de andra. Vår ensemblestrategi tränar på sampel från alla 22 generatorer, vilket är varför AUC per modell på svåra fall (Claude 4.5, GPT-5) fortfarande är ovanför 0,90 medan en enda modelltränad detektor skulle sjunka under 0,80.

Den underliggande trenden: detektionssvårighet stiger snabbare än generatorsläppstakten. Varje ny flaggskeppsmodell är svårare att detektera än den föregående, omträning minskar gapet men inte fullständigt. Förvänta att 2026–2027-baslinjen är lägre AUC på frontlinjemodeller och ungefär konstant på äldre modeller.

Vanliga frågor

Om vissa modeller är svårare att detektera, bör jag undvika att använda detektorer helt?

Nej — även på de svåraste modellfamiljerna är vår AUC ovanför 0,85, vilket är en stark signal. Frågan är hur du använder signalen. För svårdetekterade modeller, para ihop poängen med korroborerande bevis (redigeringshistorik, klassrumsarbete, studentsamtal). För lättare modeller är poängen ensamt ofta tillräckligt.

Vilken modell bör jag använda om jag vill undvika detektion?

Vi svarar inte på den frågan direkt — vi driver ett detektionsverktyg, inte en undvikningsguide. Vad vi kan säga: detekterbar kontra ej detekterbar är inte rätt axel för att välja en modell. Kvalitet, kostnad och ändamålsenlighet spelar mycket större roll än detektionssvårighet. Om du skriver legitimt med AI-assistans är redovisning och transparent arbetsflöde viktigare än att dölja verktyget.

Har öppenviktsmodellvarianter olika detektionsprofiler?

Ja, och på ett meningsfullt sätt. En community-finjusterad Llama 3.3-variant tränad för en specifik skrivstil kan producera text som poängsätts annorlunda från vanilla Llama 3.3. Vår benchmark täcker standardkontrollpunkten; anpassade finjusteringar kan vara lättare (om de smalar av utdatafördelningar) eller svårare (om de explicit adversariellt tränar mot detektion).

Hur påverkar temperatur och sampling detekterbarheten?

Högre temperatur och mer diversifierad sampling minskar generellt detekterbarheten eftersom de vidgar utdatafördelningen. Lågtemperatur girig avkodning är lättast att detektera. De flesta produktionschattgränssnitt körs med t≈0,7–1,0 med nucleus-sampling, vilket placerar dem i ett måttligt detekterbart regime — vår ensemble presterar liknande inom standardintervallet.

När kommer GPT-6 eller Claude 5 och vad bör jag förvänta mig?

Mitten av 2026 är konsensusprognosen för båda. Förvänta att detektions-AUC för de nya familjerna sjunker till 0,80–0,85-intervallet de första 4–8 veckorna efter lansering medan vi samlar sampel och tränar om. Historiska versioner antyder full återhämtning inom 8–12 veckor om modellen är allmänt tillgänglig; längre för sällsynta eller begränsat tillgängliga modeller.

AUC-siffror per modell härrör från vår interna validering och kanske inte generaliseras. Varje modells svårighet förändras över tid i takt med att både generatorn och vårt träningscorpus utvecklas. Nuvarande data återspeglar 2026-04-benchmarkkörningen.