Koti › Kuinka tarkka tekoälyn tunnistus on? Vertailutesti 22 LLM:llä | Plagiaatintunnistin

Kuinka tarkka tekoälyn tunnistus on? Vertailutestimme 22 LLM:llä

Julkaisemme tekoälyntunnistimemme todelliset tulokset 22 generatiivista mallia vastaan, mukaan lukien GPT-5, Claude 4, Gemini 2 ja Llama 3. Mallikohtaiset taulukot, rehelliset rajoitukset ja ladattava aineisto tutkijoille.

2026-04-17 · Plagiarism Detector Team

Miksi julkaisemme tarkkuuslukumme

Useimmat tekoälyntunnistustyökalut pyytävät sinua luottamaan yhteen läpinäkymättömään pisteeseen. Mielestämme ansaitset nähdä todisteet. Tällä sivulla jaamme sisäisen validointiajon täydelliset tulokset — kaikki testaamme generaattorit, kunkin AUC-ROC-pisteet, eniten ongelmia tuottaneet tekstilajit ja tuotannossa käyttämämme päätöskynnykset.

Tällainen avoimuus on harvinaista tekoälyntunnistuksen alalla. Useimmat kilpailijat — plagiaatintarkistuspalvelujen tarjoajat, erikoistuneet tekoälyntunnistuspalvelut, geneerisit SaaS-työkalut — julkaisevat joko ei lainkaan tarkkuustietoja tai yhden valikoivan luvun. Tämä käytäntö ei ole kestävä: opettajat, kustantajat ja tutkijat tarvitsevat toistettavia vertailutuloksia ennen kuin voivat luottaa mihinkään työkaluun.

Luvut perustuvat ModernBERT-tunnistimemme kalibrointikäyttöaineiston 1 000 näytteen validointiositukseen. Sama metodologia, joka ohjaa tätä vertailutestiä, toimii jokaisessa lähettämässäsi asiakirjassa. Mitään ei jätetä pois demoversioita varten.

Testiaineisto ja metodologia

Validointijoukko sisältää 1 000 esseetä, jotka on poimittu 1 200 näytteen kalibrointiaineistosta: 600 ihmisten kirjoittamaa esseetä (PAN25-jaetun tehtävän datasta ja PERSUADE-argumentaatioesseeaineistosta) sekä 600 tekoälyn tuottamaa esseetä (22 erillisen suuren kielimallin tuottamia hallituissa oloissa). 80/20-jako koulutukseen ja validointiin on kiinteä ja toistettavissa.

Jokainen näyte pisteytetään erikseen ilman pääsyä metatietoihin, jotka voisivat paljastaa oikean vastauksen. Tunnistin palauttaa todennäköisyyden välillä [0, 100], joka kuvaa todennäköisyyttä, että näyte on tekoälyn tuottama. Laskemme sitten vastaanottajan toimintaominaisuuskäyrän alle jäävän alueen (AUC-ROC) generaattorikohtaisesti ja tekstilajitasolla.

Kaikki kynnysarvot, koulutuksen hyperparametrit ja raakaa todennäköisyystuloste kirjataan. Aineisto itsessään on ladattavissa tämän sivun alaosasta — CSV-muodossa, yksi rivi per näyte, generaattorin tunniste, tekstilajimerkintä, raaka pistearvo ja lopullinen binaarituomio mukana.

Päätulokset

Koko 1 000 näytteen joukossa ensemble-tunnistimemme saavuttaa AUC-ROC [AUC: 0.9884]. Tuotannossa käyttämällämme 50 %:n päätöskynnyksellä: 0 vääriä positiivisia ihmisten esseissä validointijoukossa ja 60 % herkkyys tekoälyn esseissä. F1-optimaalisella 26,56 %:n kynnyksellä herkkyys nousee 90 %:iin 2 %:n väärän positiivisen kustannuksella — tasapainoilu, joka sopii paremmin korkean herkkyyden seulontaan.

Julkisen työkalumme asiakirjatason tuomio käyttää konservatiivista 50 %:n kynnystä, joka priorisoi nollan väärän positiivisen maksimaaliheikkyyden sijaan. Opettajat, kustantajat ja tutkijat voivat ohittaa tämän widgetin herkkyysliukusäätimellä, kun haluavat aggressiivisempaa merkintää.

Vertailun vuoksi: Binoculars-nollalähtökomponentti yksinään (2× Llama-3.1-8B -asetus) saa pisteen AUC [AUC: 0.8509] itsenäisesti. Hienosäädetty ModernBERT-komponentti yksinään saa [AUC: 1.0000] jakelun sisäisillä esseillä ja [AUC: 0.9069] jakauman ulkopuolisella tekstillä. Ensemble sijoittuu niiden väliin millä tahansa yksittäisellä akselilla, mutta ylittää molemmat keskimäärin, koska se korjaa niiden toisiaan täydentävät heikkoudet.

Mallikohtainen erittely

Tässä on mallikohtainen AUC-ROC-taulukko. Mallit on järjestetty helpoimmasta vaikeimpaan havaita validointijoukossamme. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]

OpenAI-mallit: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Muut: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].

Päähavainto: uudemmat, suuremmat, ohjeistusviritetyt mallit tuottavat tekstiä, joka näyttää tilastolliselle tunnistimelle — myös meidän — enemmän ihmisen kirjoittamalta. Claude 4.5 Sonnet ja GPT-5.x ovat kaksi perhettä, joissa pisteytyksemme jakaumat päällekkäistyvät eniten ihmislähtöaineiston kanssa. Tämä vastaa kaikkia vuonna 2025 julkaistuja riippumattomia tutkimuksia — varustelukilpailu on todellinen, ja mallin koko on suora hidastava tekijä tunnistukselle.

Missä tunnistin kamppailee

Kaikki teksti ei ole yhtä havaittavissa. Jaamme tulokset tekstilajeittain — jokainen PERSUADE-kehyskategoria — ja ero parhaan ja huonoimman välillä on huomattava. [PER-TYPE TABLE]

Argumentatiiviset, vakuuttavat ja selittävät esseet: tunnistimen vahvin ala. AUC on tyypillisesti 0,97–1,00, koska koulutusaineistot painottavat näitä tyylejä. Tänne osuu suurin osa akateemisen eheyden käyttötapauksista.

Luova kirjoittaminen ja kirjallinen analyysi: heikoin alamme. Kirjallisen analyysin AUC putoaa 0,69:ään — ihmistyyli fiktiossa yhtyy LLM-tuotosten kanssa, eikä valvottu eikä nollalähtökomponenttimme pysty luotettavasti erottamaan niitä. Suhtaudu korkeaan tekoälypisteeseen fiktiossa skeptisesti.

Kokeile tunnistinta omalla tekstilläsi

Liitä mikä tahansa asiakirja ja katso sama lausekohtainen tuomio ja päätöskynnykset, joita käytämme näissä vertailutuloksissa. Ilmainen, ei rekisteröitymistä.

Rajoitukset ja virhetilanteet

Kolme tekstityyppiä pakenee tunnistimemme validointijoukkomme tuloksia useammin. Inhimillistetty tekoälyteksti — vastustuksellisen uudelleenmuotoilun tai tyylinsiirrolla käsitelty tuotos — pisteytyy usein ihmiseksi, vaikka pohjateksti olisi täysin generoitu. Lyhyt teksti (alle 100 sanaa) on vaikeaa luokitella, koska tilastollinen signaali on riittämätön. Ei-äidinkielenään englanniksi kirjoitettu teksti voi pisteytyä tekoälyksi, koska LLM:illä ja vieraskielisillä kirjoittajilla on tiettyjä yhteisiä leksikaalisia ja syntaktisia piirteitä.

Tunnistimemme on todennäköisyyspohjainen, ei todistuksellinen. Korkea tekoälypisteys on merkki jatkotutkimukselle, ei todiste väärinkäytöstä. Suosittelemme vahvasti yhdistämään pisteytykseen konteksti: viimeisimmät muokkaushistoriat, versioluonnokset, saman kirjoittajan kirjoitusnäytteet ja — tarvittaessa — lyhyen jatkokeskustelun kirjoittajan kanssa.

Koulutamme jatkuvasti uusimpien generaattoreiden tuotosten pohjalta, mutta viive on aina olemassa: viime viikolla julkaistu malli ei välttämättä ole hyvin edustettu koulutusaineistossa. Jos työnkulkusi edellyttää uusimpien mallien havaitsemista, tarkista vertailutestisvumme neljännesvuosittain päivitettyjen lukujen osalta.

Lataa koko aineisto

Julkaisemme raakaa validointituloksia, jotta tutkijat, toimittajat ja opettajat voivat itsenäisesti vahvistaa väitteemme. CSV sisältää: näyte-ID, generaattorin tunniste (tai "human"), tekstilajimerkintä, raaka todennäköisyystuloste, binaarituomio 50 %:n kynnyksellä, binaarituomio 26,56 %:n kynnyksellä.

Lataa: ai-detector-benchmark-2026-04.csv (päivitetään neljännesvuosittain). Akateeminen käyttö on rajoittamatonta; kaupallinen uudelleenjulkaisu edellyttää viittausta: “Plagiarism Detector — AI Detection Benchmark 2026-04”.

Interaktiivisen version samasta metodologiasta omalla tekstilläsi saat kokeilemalla Tekoäly- & plagiaatintarkistinta — liitä mikä tahansa asiakirja ja katso lausekohtainen tuomio, samat päätöskynnykset ja sama luottamusväli, joita käytämme näissä julkaistuissa luvuissa.

Usein kysytyt kysymykset

Kuinka usein tämä vertailutesti päivitetään?

Joka neljännes. Kun merkittävä generaattori (GPT-6, Claude 5, Gemini 3) julkaistaan, lisäämme sen testiaineistoon 4 viikon kuluessa ja julkaisemme päivitetyn taulukon. Historialliset versiot arkistoidaan päivätyin tiedostonimineen — 2026-04-versio on nykyinen vakiojulkaisu.

Miksi ette julkaise näytekohtaisia todennäköisyystulosteita?

Julkaisemme — ladattava CSV sisältää raakaa todennäköisyydet. Emme julkaise alkuperäistä esseetekstiä, koska PAN25-aineistolla ja PERSUADE-aineistolla on jakelurajoituksia. Jos haluat tekstin, hae nämä aineistot suoraan lähteistään (linkit CSV-dokumentaatiossa).

Voiko tunnistimeen luottaa, jos AUC on alle 1,0?

Mikään tunnistin ei saavuta AUC 1,0 jokaisella generaattorilla, joten kysymys ei ole ‘onko se täydellinen’ vaan ‘onko se läpinäkyvä.’ Tunnistin, joka julkaisee AUC 0,95:n ja kertoo, missä se kamppailee, on luotettavampi kuin sellainen, joka julkaisee "alan johtavan tarkkuuden" ilman lukua. AUC-arvomme [AUC: 0.9884] on rehellinen keskimääräinen suorituskyky; generaattori- ja tekstilajikohtaiset erittelyt ovat kohtia, joissa sinun tulisi tehdä ostopäätöksesi.

Onko tekoälyntunnistimesi akateemiseen julkaisemiseen valmis?

Pohjana oleva metodologia on — Binoculars (ICML 2024) ja ModernBERT ovat molemmat vertaisarvioituja arkkitehtuureja. Erityinen hienosäätöaineistomme ja kynnysarvomme ovat omistusoikeudellisia, mutta vertailutestin metodologia on täysin toistettavissa.

Miten ilmainen verkkotyökalu vertautuu työpöytätuotteeseen?

Sama moottori, samat tarkkuusluvut, sama lausekohtainen tuomiologiikka. Työpöytätuote lisää rajoittamattoman asiakirjapituuden, offline-skannauksen, integroidun plagioinnin etsinnän 4 miljardia verkkosivua sisältävästä indeksistä ja kansioiden eräkäsittelyn. Yksittäisiin tarkistuksiin verkkotyökalu riittää; päivittäisiin työnkulkuihin työpöytäversio on oikea valinta.

Vertailutulokset on johdettu sisäisestä validointijoukostamme, eivätkä ne välttämättä yleisty jakelun ulkopuoliseen tekstiin. Julkaistut luvut edustavat 1 000 näytteen keskimääräistä suorituskykyä; asiakirjasi voi saada erilaisen pisteyytyksen. Käytä tekoälyntunnistustuloksia yhtenä useista panoksista, ei ainoana tekijäntunnistuksen todisteena.