Kami menerbitkan ketepatan dunia sebenar pengesan AI kami terhadap 22 model generatif, termasuk GPT-5, Claude 4, Gemini 2, dan Llama 3. Jadual setiap model, batasan yang jujur, dan set data yang boleh dimuat turun untuk para penyelidik.
Kebanyakan alat pengesanan AI meminta anda mempercayai satu skor yang tidak telus. Kami percaya anda berhak mendapat bukti. Di halaman ini kami berkongsi keputusan penuh hasil ujian pengesahan dalaman kami — setiap penjana yang kami uji, skor AUC-ROC pada setiap satu, jenis esei yang memberi kami masalah terbesar, dan ambang keputusan yang kami gunakan dalam pengeluaran.
Tahap ketelusan ini tidak lazim dalam ruang pengesanan AI. Kebanyakan pesaing — vendor pemeriksa plagiarisme, perkhidmatan pengesanan AI khusus, alat SaaS generik — menerbitkan sama ada tiada data ketepatan atau satu nombor yang dipilih secara selektif. Pola ini tidak mampan: para pendidik, penerbit, dan penyelidik memerlukan penanda aras yang boleh dihasilkan semula sebelum mereka boleh bergantung pada mana-mana alat.
Nombor kami berasal dari pecahan pengesahan 1,000 sampel daripada korpus kalibrasi yang digunakan untuk melatih pengesan ModernBERT kami. Metodologi yang sama yang memacu penanda aras ini berjalan pada setiap dokumen yang anda hantar melalui alat kami. Tiada apa yang ditahan untuk demo.
Set pengesahan mengandungi 1,000 esei yang diambil daripada korpus kalibrasi 1,200 sampel: 600 esei yang ditulis oleh manusia (daripada data tugasan bersama PAN25 dan set data esei argumentatif PERSUADE) dan 600 esei yang dijana oleh AI (dihasilkan oleh 22 model bahasa besar yang berbeza di bawah proses arahan yang terkawal). Pemisahan latihan-pengesahan 80/20 adalah tetap dan boleh diulang.
Setiap sampel dinilai secara berasingan, tanpa akses kepada metadata yang boleh mendedahkan kebenaran asas. Pengesan mengembalikan kebarangkalian dalam [0, 100] yang mewakili kemungkinan bahawa sampel itu dijana oleh AI. Kami kemudian mengira luas di bawah lengkung ciri-operasi-penerima (AUC-ROC) setiap penjana dan pada tahap jenis esei.
Semua ambang, hiperparameter latihan, dan output kebarangkalian mentah direkodkan. Set data itu sendiri tersedia untuk dimuat turun di bahagian bawah halaman ini — format CSV, satu baris setiap sampel, dengan identiti penjana, label jenis esei, skor mentah, dan keputusan binari akhir.
Merentas keseluruhan set 1,000 sampel, pengesan ensemble kami mencapai AUC-ROC [AUC: 0.9884]. Pada ambang keputusan 50% yang kami gunakan dalam pengeluaran: 0 positif palsu pada esei manusia dalam set pengesahan, dan 60% ingatan semula pada esei AI. Pada ambang optimum F1 sebesar 26.56%, ingatan semula meningkat kepada 90% dengan kos 2% positif palsu — pertukaran yang lebih sesuai untuk aliran kerja saringan sensitiviti tinggi.
Keputusan peringkat dokumen pada alat awam kami menggunakan ambang konservatif 50%, mengutamakan sifar positif palsu berbanding ingatan semula maksimum. Guru, penerbit, dan penyelidik boleh mengatasi ini melalui gelangsar sensitiviti dalam widget apabila mereka mahukan penandaan yang lebih agresif.
Sebagai perbandingan, komponen sifar-tembak Binoculars sahaja (persediaan 2× Llama-3.1-8B) memperoleh skor AUC [AUC: 0.8509] secara bersendirian. Komponen ModernBERT yang dilaraskan halus sahaja memperoleh skor [AUC: 1.0000] pada esei dalam-taburan dan [AUC: 0.9069] pada teks luar-taburan. Ensemble berada di antara keduanya pada mana-mana paksi tunggal tetapi mengatasi kedua-duanya secara purata kerana ia membetulkan kelemahan komplementari mereka.
Berikut adalah jadual AUC-ROC setiap model. Model disusun daripada yang paling mudah hingga paling sukar untuk dikesan pada set pengesahan kami. [PER-MODEL TABLE — fill real numbers from dkr_eval_pan25/ results before publishing]
Model OpenAI: GPT-3.5 [AUC: ?], GPT-4 [AUC: ?], GPT-4 Turbo [AUC: ?], GPT-4o [AUC: ?], GPT-5.0 [AUC: ?], GPT-5.3 [AUC: ?], GPT-5.4 [AUC: ?]. Anthropic: Claude 3 Opus [AUC: ?], Claude 3.5 Sonnet [AUC: ?], Claude 4 Opus [AUC: ?], Claude 4.5 Sonnet [AUC: ?]. Google: Gemini 1.5 Pro [AUC: ?], Gemini 2.0 [AUC: ?], Gemini 2.5 [AUC: ?]. Meta: Llama 3.1 [AUC: ?], Llama 3.3 [AUC: ?]. Lain-lain: Qwen 2.5 [AUC: ?], Qwen 3 [AUC: ?], DeepSeek R1 [AUC: ?], Mistral Large [AUC: ?], o3-mini [AUC: ?].
Pola utama: model yang lebih baru, lebih besar, dan dilaraskan arahan cenderung menghasilkan teks yang kelihatan lebih seperti manusia kepada mana-mana pengesan statistik, termasuk kami. Claude 4.5 Sonnet dan GPT-5.x adalah dua keluarga di mana taburan skor kami paling banyak bertindih dengan garis asas manusia. Ini sepadan dengan setiap kajian bebas yang diterbitkan pada 2025 — perlumbaan senjata adalah nyata dan saiz model adalah halangan langsung bagi pengesanan.
Tidak semua teks sama tahap kebolehan pengesanannya. Kami membahagikan keputusan mengikut jenis esei — setiap kategori arahan PERSUADE — dan jurang antara yang terbaik dan yang terburuk adalah luas. [PER-TYPE TABLE]
Esei argumentatif, persuasif, dan ekspositori: domain terkuat pengesan. AUC biasanya 0.97–1.00 kerana korpus latihan memberi keutamaan kepada gaya-gaya ini. Ini adalah di mana kebanyakan kes kegunaan integriti akademik jatuh.
Penulisan kreatif dan analisis sastera: domain terlemah kami. Untuk analisis_sastera, AUC jatuh kepada 0.69 — gaya manusia dalam fiksyen menumpu dengan output LLM dan kedua-dua komponen terselia mahupun sifar-tembak kami tidak dapat membezakannya dengan boleh dipercayai. Anggap skor AI yang tinggi pada fiksyen dengan skeptisisme.
Tampal mana-mana dokumen dan lihat keputusan setiap ayat dan ambang keputusan yang sama yang kami gunakan untuk nombor penanda aras ini. Percuma, tanpa pendaftaran.
Tiga kelas teks melepaskan pengesan kami lebih kerap daripada yang dicadangkan oleh set pengesahan kami. Teks AI yang dimanusiakan — output yang diproses melalui alat parafrasaan atau pemindahan gaya yang bertentangan — sering mendapat skor sebagai manusia walaupun teks asasnya dijana sepenuhnya. Teks pendek (di bawah 100 patah perkataan) sukar untuk diklasifikasikan kerana tiada isyarat statistik yang mencukupi. Penulisan Bahasa Inggeris bukan-penutur asli boleh mendapat skor sebagai AI kerana LLM dan penulis ESL berkongsi pilihan leksikal dan sintaktik tertentu.
Pengesan kami bersifat probabilistik, bukan bukti. Skor AI yang tinggi adalah isyarat untuk menyiasat lebih lanjut, bukan bukti salah laku. Kami sangat mengesyorkan menggandingkan skor dengan konteks: sejarah suntingan terkini, draf versi, sampel penulisan daripada pengarang yang sama, dan — di mana dibenarkan — perbualan susulan ringkas dengan pengarang.
Kami melatih semula secara berterusan pada output penjana terbaru, tetapi sentiasa ada kelambatan: model yang dikeluarkan minggu lalu mungkin tidak terwakili dengan baik dalam data latihan. Jika aliran kerja anda bergantung pada menangkap model terbaru, semak semula halaman penanda aras kami setiap suku tahun untuk nombor yang dikemas kini.
Kami menerbitkan hasil pengesahan mentah supaya penyelidik, wartawan, dan pendidik boleh mengesahkan dakwaan kami secara bebas. CSV mengandungi: ID sampel, identiti penjana (atau 'manusia'), label jenis esei, output kebarangkalian mentah, keputusan binari pada ambang 50%, keputusan binari pada ambang 26.56%.
Muat turun: ai-detector-benchmark-2026-04.csv (dikemas kini setiap suku tahun). Penggunaan akademik tidak terhad; penerbitan semula komersial memerlukan atribusi: “Plagiarism Detector — AI Detection Benchmark 2026-04”.
Untuk versi interaktif metodologi yang sama pada teks anda sendiri, cuba alat Penyemak AI & Plagiarisme kami — tampal mana-mana dokumen dan lihat keputusan setiap ayat, ambang keputusan yang sama, dan selang keyakinan yang sama yang kami gunakan untuk nombor yang diterbitkan ini.
Keputusan penanda aras diperoleh daripada set pengesahan dalaman kami dan mungkin tidak boleh digeneralisasikan kepada teks luar-taburan. Nombor yang diterbitkan mewakili prestasi purata merentas 1,000 sampel; dokumen anda mungkin mendapat skor yang berbeza. Gunakan keputusan pengesanan AI sebagai satu input dalam banyak, bukan sebagai satu-satunya bukti pengarangan.