Julkaisemme tekoälyntunnistimemme todelliset tulokset 22 generatiivista mallia vastaan, mukaan lukien GPT-5, Claude 4, Gemini 2 ja Llama 3. Mallikohtaiset taulukot, rehelliset rajoitukset ja ladattava aineisto tutkijoille.
Useimmat tekoälyntunnistustyökalut pyytävät sinua luottamaan yhteen läpinäkymättömään pisteeseen. Mielestämme ansaitset nähdä todisteet. Tällä sivulla jaamme sisäisen validointiajon täydelliset tulokset — kaikki testaamme generaattorit, kunkin AUC-ROC-pisteet, eniten ongelmia tuottaneet tekstilajit ja tuotannossa käyttämämme päätöskynnykset.
Tällainen avoimuus on harvinaista tekoälyntunnistuksen alalla. Useimmat kilpailijat — plagiaatintarkistuspalvelujen tarjoajat, erikoistuneet tekoälyntunnistuspalvelut, geneerisit SaaS-työkalut — julkaisevat joko ei lainkaan tarkkuustietoja tai yhden valikoivan luvun. Tämä käytäntö ei ole kestävä: opettajat, kustantajat ja tutkijat tarvitsevat toistettavia vertailutuloksia ennen kuin voivat luottaa mihinkään työkaluun.
Luvut perustuvat ModernBERT-tunnistimemme kalibrointikäyttöaineiston 1 000 näytteen validointiositukseen. Sama metodologia, joka ohjaa tätä vertailutestiä, toimii jokaisessa lähettämässäsi asiakirjassa. Mitään ei jätetä pois demoversioita varten.
Validointijoukko sisältää 1 000 esseetä, jotka on poimittu 1 200 näytteen kalibrointiaineistosta: 600 ihmisten kirjoittamaa esseetä (PAN25-jaetun tehtävän datasta ja PERSUADE-argumentaatioesseeaineistosta) sekä 600 tekoälyn tuottamaa esseetä (22 erillisen suuren kielimallin tuottamia hallituissa oloissa). 80/20-jako koulutukseen ja validointiin on kiinteä ja toistettavissa.
Jokainen näyte pisteytetään erikseen ilman pääsyä metatietoihin, jotka voisivat paljastaa oikean vastauksen. Tunnistin palauttaa todennäköisyyden välillä [0, 100], joka kuvaa todennäköisyyttä, että näyte on tekoälyn tuottama. Laskemme sitten vastaanottajan toimintaominaisuuskäyrän alle jäävän alueen (AUC-ROC) generaattorikohtaisesti ja tekstilajitasolla.
Kaikki kynnysarvot, koulutuksen hyperparametrit ja raakaa todennäköisyystuloste kirjataan. Aineisto itsessään on ladattavissa tämän sivun alaosasta — CSV-muodossa, yksi rivi per näyte, generaattorin tunniste, tekstilajimerkintä, raaka pistearvo ja lopullinen binaarituomio mukana.
Koko 1 000 näytteen joukossa ensemble-tunnistimemme saavuttaa AUC-ROC [AUC: 0.9884]. Tuotannossa käyttämällämme 50 %:n päätöskynnyksellä: 0 vääriä positiivisia ihmisten esseissä validointijoukossa ja 60 % herkkyys tekoälyn esseissä. F1-optimaalisella 26,56 %:n kynnyksellä herkkyys nousee 90 %:iin 2 %:n väärän positiivisen kustannuksella — tasapainoilu, joka sopii paremmin korkean herkkyyden seulontaan.
Julkisen työkalumme asiakirjatason tuomio käyttää konservatiivista 50 %:n kynnystä, joka priorisoi nollan väärän positiivisen maksimaaliheikkyyden sijaan. Opettajat, kustantajat ja tutkijat voivat ohittaa tämän widgetin herkkyysliukusäätimellä, kun haluavat aggressiivisempaa merkintää.
Vertailun vuoksi: Binoculars-nollalähtökomponentti yksinään (2× Llama-3.1-8B -asetus) saa pisteen AUC [AUC: 0.8509] itsenäisesti. Hienosäädetty ModernBERT-komponentti yksinään saa [AUC: 1.0000] jakelun sisäisillä esseillä ja [AUC: 0.9069] jakauman ulkopuolisella tekstillä. Ensemble sijoittuu niiden väliin millä tahansa yksittäisellä akselilla, mutta ylittää molemmat keskimäärin, koska se korjaa niiden toisiaan täydentävät heikkoudet.
Tässä on mallikohtainen AUC-ROC-taulukko. Mallit on järjestetty helpoimmasta vaikeimpaan havaita validointijoukossamme. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
OpenAI-mallit: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Muut: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Päähavainto: uudemmat, suuremmat, ohjeistusviritetyt mallit tuottavat tekstiä, joka näyttää tilastolliselle tunnistimelle — myös meidän — enemmän ihmisen kirjoittamalta. Claude 4.5 Sonnet ja GPT-5.x ovat kaksi perhettä, joissa pisteytyksemme jakaumat päällekkäistyvät eniten ihmislähtöaineiston kanssa. Tämä vastaa kaikkia vuonna 2025 julkaistuja riippumattomia tutkimuksia — varustelukilpailu on todellinen, ja mallin koko on suora hidastava tekijä tunnistukselle.
Kaikki teksti ei ole yhtä havaittavissa. Jaamme tulokset tekstilajeittain — jokainen PERSUADE-kehyskategoria — ja ero parhaan ja huonoimman välillä on huomattava. [PER-TYPE TABLE]
Argumentatiiviset, vakuuttavat ja selittävät esseet: tunnistimen vahvin ala. AUC on tyypillisesti 0,97–1,00, koska koulutusaineistot painottavat näitä tyylejä. Tänne osuu suurin osa akateemisen eheyden käyttötapauksista.
Luova kirjoittaminen ja kirjallinen analyysi: heikoin alamme. Kirjallisen analyysin AUC putoaa 0,69:ään — ihmistyyli fiktiossa yhtyy LLM-tuotosten kanssa, eikä valvottu eikä nollalähtökomponenttimme pysty luotettavasti erottamaan niitä. Suhtaudu korkeaan tekoälypisteeseen fiktiossa skeptisesti.
Liitä mikä tahansa asiakirja ja katso sama lausekohtainen tuomio ja päätöskynnykset, joita käytämme näissä vertailutuloksissa. Ilmainen, ei rekisteröitymistä.
Kolme tekstityyppiä pakenee tunnistimemme validointijoukkomme tuloksia useammin. Inhimillistetty tekoälyteksti — vastustuksellisen uudelleenmuotoilun tai tyylinsiirrolla käsitelty tuotos — pisteytyy usein ihmiseksi, vaikka pohjateksti olisi täysin generoitu. Lyhyt teksti (alle 100 sanaa) on vaikeaa luokitella, koska tilastollinen signaali on riittämätön. Ei-äidinkielenään englanniksi kirjoitettu teksti voi pisteytyä tekoälyksi, koska LLM:illä ja vieraskielisillä kirjoittajilla on tiettyjä yhteisiä leksikaalisia ja syntaktisia piirteitä.
Tunnistimemme on todennäköisyyspohjainen, ei todistuksellinen. Korkea tekoälypisteys on merkki jatkotutkimukselle, ei todiste väärinkäytöstä. Suosittelemme vahvasti yhdistämään pisteytykseen konteksti: viimeisimmät muokkaushistoriat, versioluonnokset, saman kirjoittajan kirjoitusnäytteet ja — tarvittaessa — lyhyen jatkokeskustelun kirjoittajan kanssa.
Koulutamme jatkuvasti uusimpien generaattoreiden tuotosten pohjalta, mutta viive on aina olemassa: viime viikolla julkaistu malli ei välttämättä ole hyvin edustettu koulutusaineistossa. Jos työnkulkusi edellyttää uusimpien mallien havaitsemista, tarkista vertailutestisvumme neljännesvuosittain päivitettyjen lukujen osalta.
Julkaisemme raakaa validointituloksia, jotta tutkijat, toimittajat ja opettajat voivat itsenäisesti vahvistaa väitteemme. CSV sisältää: näyte-ID, generaattorin tunniste (tai "human"), tekstilajimerkintä, raaka todennäköisyystuloste, binaarituomio 50 %:n kynnyksellä, binaarituomio 26,56 %:n kynnyksellä.
Lataa: ai-detector-benchmark-2026-04.csv (päivitetään neljännesvuosittain). Akateeminen käyttö on rajoittamatonta; kaupallinen uudelleenjulkaisu edellyttää viittausta: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
Interaktiivisen version samasta metodologiasta omalla tekstilläsi saat kokeilemalla Tekoäly- & plagiaatintarkistinta — liitä mikä tahansa asiakirja ja katso lausekohtainen tuomio, samat päätöskynnykset ja sama luottamusväli, joita käytämme näissä julkaistuissa luvuissa.
Vertailutulokset on johdettu sisäisestä validointijoukostamme, eivätkä ne välttämättä yleisty jakelun ulkopuoliseen tekstiin. Julkaistut luvut edustavat 1 000 näytteen keskimääräistä suorituskykyä; asiakirjasi voi saada erilaisen pisteyytyksen. Käytä tekoälyntunnistustuloksia yhtenä useista panoksista, ei ainoana tekijäntunnistuksen todisteena.