Hem › Hur träffsäker är AI-detektion? Benchmark för 22 LLM:er | Plagiatdetektor

Hur träffsäker är AI-detektion? Vår benchmark för 22 LLM:er

Vi publicerar vår AI-detektors verkliga noggrannhet mot 22 generativa modeller, inklusive GPT-5, Claude 4, Gemini 2 och Llama 3. Tabeller per modell, ärliga begränsningar och ett nedladdningsbart dataset för forskare.

2026-04-17 · Plagiarism Detector Team

Varför vi publicerar våra noggrannhetssiffror

De flesta AI-detektionsverktyg ber dig lita på ett enda ogenomskinligt poäng. Vi anser att du förtjänar bevis. På den här sidan delar vi de fullständiga resultaten av vår interna valideringskörning — varje generator vi testade, AUC-ROC-poängen för var och en, de essätyper som gav oss mest problem och de beslutsgränsvärden vi använder i produktion.

Den här nivån av transparens är ovanlig inom AI-detektionsområdet. De flesta konkurrenter — leverantörer av plagiatgranskare, specialiserade AI-detektionstjänster, generiska SaaS-verktyg — publicerar antingen inga noggrannhetsdata eller ett enda körsbärsplockat tal. Det mönstret är ohållbart: lärare, utgivare och forskare behöver reproducerbara riktmärken innan de kan förlita sig på något verktyg.

Våra siffror kommer från ett valideringsset med 1 000 sampel från det kalibreringscorpus som användes för att träna vår ModernBERT-detektor. Samma metodik som driver detta benchmark körs på varje dokument du skickar in via vårt verktyg. Ingenting hålls tillbaka för demonstrationer.

Testcorpus och metodik

Valideringssettet innehåller 1 000 essäer hämtade från ett kalibreringscorpus med 1 200 sampel: 600 mänskligt skrivna essäer (från PAN25:s delade uppgiftsdata och PERSUADE-datasetet med argumenterande essäer) och 600 AI-genererade essäer (producerade av 22 distinkta stora språkmodeller under kontrollerad promptning). Uppdelningen 80/20 i träning och validering är fast och reproducerbar.

Varje sampel poängsätts isolerat, utan åtkomst till metadata som kan läcka ut grundsanningen. Detektorn returnerar en sannolikhet i [0, 100] som representerar sannolikheten att samplet är AI-genererat. Vi beräknar sedan arean under kurvan för mottagar-operationskarakteristikum (AUC-ROC) per generator och på essätypsnivå.

Alla gränsvärden, träningshyperparametrar och råa sannolikhetsutdata loggas. Datasetet är tillgängligt för nedladdning längst ned på den här sidan — CSV-format, en rad per sampel, med generatorns identitet, essätypsetikett, råpoäng och det slutliga binära utslaget.

Toppresultat

Totalt sett, för hela settet med 1 000 sampel, uppnår vår ensembledetektor AUC-ROC [AUC: 0.9884]. Vid det 50 %-iga beslutsgränsvärde vi använder i produktion: 0 falska positiva på mänskliga essäer i valideringssettet och 60 % recall på AI-essäer. Vid det F1-optimala gränsvärdet på 26,56 % stiger recall till 90 % på bekostnad av 2 % falska positiva — en avvägning som lämpar sig bättre för arbetsflöden med hög känslighet.

Det dokumentnivåmässiga utslaget i vårt offentliga verktyg använder det konservativa 50 %-gränsvärdet, vilket prioriterar noll falska positiva framför maximal recall. Lärare, utgivare och forskare kan åsidosätta detta via känslighetsreglaget i widgeten när de vill ha mer aggressiv flaggning.

Som jämförelse: Binoculars nollshotskomponent ensam (en 2× Llama-3.1-8B-inställning) ger AUC [AUC: 0.8509] fristående. Den finjusterade ModernBERT-komponenten ensam ger [AUC: 1.0000] på distribueringsinterna essäer och [AUC: 0.9069] på distribueringsexter text. Ensemblen hamnar mellan dem på en enda axel men överträffar båda i genomsnitt eftersom den korrigerar deras komplementära svagheter.

Uppdelning per generator

Här är AUC-ROC-tabellen per modell. Modeller är ordnade från lättast till svårast att detektera i vårt valideringsset. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI-modeller: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Övriga: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Det övergripande mönstret: nyare, större, instruktionsjusterade modeller tenderar att producera text som ser mer mänsklig ut för varje statistisk detektor, inklusive vår. Claude 4.5 Sonnet och GPT-5.x är de två familjer där våra poängdistributioner överlappar mest med den mänskliga baslinjen. Detta stämmer överens med varje oberoende studie som publicerats 2025 — kapprustningen är verklig och modellstorlek är ett direkt motvind för detektion.

Var detektorn kämpar

Inte all text är lika detekterbar. Vi bryter ned resultat efter essätyp — varje PERSUADE-promptkategori — och gapet mellan bäst och sämst är brett. [PER-TYPE TABLE]

Argumenterande, övertygande och exponeringsinriktade essäer: detektorns starkaste domän. AUC är vanligtvis 0,97–1,00 eftersom träningscorpus överrepresenterar dessa stilar. Det är här de flesta akademiska integritetsfall faller.

Kreativt skrivande och litterär analys: vår svagaste domän. För literary_analysis sjunker AUC till 0,69 — mänsklig stil i fiktion konvergerar med LLM-utdata och varken vår övervakade eller nollshotskomponent kan pålitligt skilja dem åt. Behandla ett högt AI-poäng på fiktion med skepsis.

Prova detektorn på din egen text

Klistra in vilket dokument som helst och se samma utslag per mening och beslutsgränsvärden vi använder för dessa benchmarksiffror. Gratis, ingen registrering.

Begränsningar och felsätt

Tre klasser av text undgår vår detektor oftare än vårt valideringsset antyder. Humaniserad AI-text — utdata som passats genom ett adversariellt omformuleringsverktyg eller stilöverföringsverktyg — poängsätts ofta som mänsklig även när den underliggande texten var fullt genererad. Kort text (under 100 ord) är svår att klassificera överhuvudtaget eftersom det finns otillräcklig statistisk signal. Icke-infödd engelska skrift kan poängsättas som AI-genererad eftersom LLM:er och ESL-skribenter delar vissa lexikala och syntaktiska preferenser.

Vår detektor är probabilistisk, inte bevismässig. Ett högt AI-poäng är en signal att undersöka vidare, inte bevis på oegentligheter. Vi rekommenderar starkt att para ihop poängen med sammanhang: nylig redigeringshistorik, versionsutkast, skrivprover från samma författare och — där det tillåts — ett kort uppföljningssamtal med författaren.

Vi tränar kontinuerligt om på de senaste generatorutdatan, men det finns alltid en eftersläpning: en modell som släpptes förra veckan kanske inte är väl representerad i träningsdata. Om ditt arbetsflöde kräver att du fångar de senaste modellerna bör du kontrollera vår benchmarksida kvartalsvis för de uppdaterade siffrorna.

Ladda ned det fullständiga datasetet

Vi publicerar de råa valideringsresultaten så att forskare, journalister och lärare oberoende kan verifiera våra påståenden. CSV:n innehåller: sampel-ID, generatorns identitet (eller 'human'), essätypsetikett, råsannolikhetsutdata, binärt utslag vid 50 %-gränsvärde, binärt utslag vid 26,56 %-gränsvärde.

Ladda ned: ai-detector-benchmark-2026-04.csv (uppdateras kvartalsvis). Akademisk användning är obegränsad; kommersiell återpublicering kräver källhänvisning: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

För en interaktiv version av samma metodik på din egen text, prova vårt AI & Plagiatgranskningsverktyg — klistra in vilket dokument som helst och se utslaget per mening, samma beslutsgränsvärden och samma konfidensintervall vi använder för dessa publicerade siffror.

Vanliga frågor

Hur ofta uppdateras detta benchmark?

Varje kvartal. När en stor generator (GPT-6, Claude 5, Gemini 3) lanseras lägger vi till den i testcorpus inom 4 veckor och publicerar den uppdaterade tabellen på nytt. Historiska versioner arkiveras med daterade filnamn — 2026-04-utgåvan är den nuvarande stabila versionen.

Varför publicerar ni inte sannolikhetsutdata per sampel?

Det gör vi — den nedladdningsbara CSV:n innehåller råsannolikheter. Vad vi inte publicerar är den ursprungliga essätexten, eftersom PAN25-korpusen och PERSUADE-datasetet har distributionsbegränsningar. Om du vill ha texten hämtar du dessa dataset direkt från deras källa (länkar i CSV-dokumentationen).

Kan jag lita på en detektor om AUC är lägre än 1,0?

Ingen detektor uppnår AUC 1,0 på alla generatorer, så frågan är inte ‘är den perfekt’ utan ‘är den transparent.’ En detektor som publicerar AUC 0,95 och berättar var den kämpar är mer pålitlig än en som publicerar ‘branschledande noggrannhet’ utan något tal. Vår AUC [AUC: 0.9884] är ärlig genomsnittlig prestanda; uppdelningarna per generator och per essätyp är där du bör fatta ditt inköpsbeslut.

Är er AI-detektor redo för akademisk publicering?

Den underliggande metodiken är det — Binoculars (ICML 2024) och ModernBERT är båda expertgranskade arkitekturer. Vårt specifika finjusteringscorpus och gränsvärden är proprietära men benchmarkmetodiken är fullt reproducerbar.

Hur jämför sig det gratis onlineverktyget med skrivbordsprodukten?

Samma motor, samma noggrannhetssiffror, samma logik för utslag per mening. Skrivbordsprodukten lägger till obegränsad dokumentlängd, offlineskanning, integrerad plagiatkontroll mot 4 miljarder webbsidor och batchbearbetning av hela mappar. För enstaka kontroller räcker onlineverktyget; för dagliga arbetsflöden är skrivbordsversionen rätt verktyg.

Benchmarkresultat härrör från vårt interna valideringsset och kanske inte generaliseras till distribueringsexter text. Publicerade siffror representerar genomsnittlig prestanda för 1 000 sampel; ditt dokument kan poängsättas annorlunda. Använd AI-detektionsresultat som ett av flera indata, inte som enda bevis för upphovspersonskap.